Kartan eller terrängen

 

En av de mer spridda begreppen i de rådande läroplanerna är ”progression”. Det talas om progressionsuttryck och om att läroplanen, det centrala innehållet och särskilt kunskapskraven ”har en tydlig progression”. Att man genom sin skolgång ska ha en progression i skolan förefaller alla människor vara eniga om. Men hur en sådan progression kan beskrivas och tillämpas är inte alls lika lätt att bli överens om. På det senaste har begreppet progression, eller learning progression (Lp) som det kallas på engelska fått tåla en tämligen rejäl sågning i Storbritannien: ”the findings we have presented suggest that the theory of learning that is inherent to the Lp approach is unhelpfully simplistic.”, skriver Tom Gallacher and Martin Johnson i det senaste numret av forskningsstidsskriften Research Matters, som ges ut av internationellt erkända Cambridge Assessment.

I Sverige verkar begreppet ännu fått liten kritik, eller så har kritiken eller problematiseringen fört en rätt undanskymd tillvaro. Man kan emellertid hitta texter som problematiserar begreppet. Ann-Marie Körling, rikskänd lärare, skriver i sin blogg redan 2011 om progression: ”Det centrala innehållet i årskurs 4-6 kring att skriva är att skriva och disponera sin text samt redigera dem (Lgr 11 s. 224). Det betyder alltså att skriva för hand och för dator får en utveckling mot att också inbegripa disposition och redigering. Vilket givetvis kan undervisas om under hela skolgången, redan tidigare om man så önskar.” Körling tycks märka att det inte finns någon särskild anledning att börja med det här centrala innehållet först i årskurs 4-6. I själva verket kan man börja med det tidigare ”om man så önskar”.

Skolverket själva vidgår lite av problemen med progression i ett av sina kommentarmaterial och skriver: ”När läraren eller lärarlaget ger sig i kast med uppgiften att i praktiken hitta en lämplig progression genom innehållet är det inte så lätt. Progression är i sig ett komplext begrepp, och det är ofta långt ifrån enkelt att anvisa en progression av ett innehåll som underlättar lärandet, särskilt inte om den ska passa alla”. Nedan en tabell från sagda kommentarmaterial och på samma sätt som i Körlings resonemang förefaller det inte som direkt orimligt att innehållet för årskurs 4-6 skulle kunna dyka upp redan 1-3. Se bilden nedan.

Progressionen i kunskapskraven

En annan Skolverkstext som problematiserar föreställningen om en rak lärandeprogression finns i bedömningsstödet för bild för årskurs 9. Där framskymtar en helt annan föreställning om lärandets utveckling än den trappstegsmodell vi får i centrala innehållet och kunskapskraven: ” lärande i praktiken har sällan en så enkel och linjär struktur. Lärandet kan snarare beskrivas som en zick-zackrörelse. Lars Lindström liknar den här ibland cirkulära eller slumpmässiga processen vid den gamla visan om prästens lilla kråka” (dvs, än slank han hit, än slank han dit). (Professor Lars Lindström var en pionjär inom pedagogisk bedömning, inom bildämnet.)

Det verkar, detta till trots, förhålla sig så att kunskapskraven ska förstås som att de har en rak progression. Bestämmelserna för betygsskalan lyder: ”Kraven för betygen A, C och E ska precisera vilka kunskaper som krävs för respektive betyg. Kunskapskravet för betyget D innebär att kraven för E och till övervägande del för C är uppfyllda. Kravet för betyget B innebär att även kraven för C och till övervägande del för A är uppfyllda.”  För att få betyget E behöver du uppfylla allt av vad som framgår av kunskapskravet för E. För att få C behöver du ha uppfyllt kraven för C, som antas ligga på en annan kvalitativ nivå ( ”Läraren i exemplet går först igenom sin sammanfattande dokumentation och analyserar och värderar vilken kvalitet en elev visat på sitt kunnande i förhållande till en del av kunskapskraven”, skriver Skolverket i sitt stödmaterial om betygsskalan). Betygsskalan bygger alltså på metaforer som nivå eller trappsteg, om ger uttryck för skillnader i kvalitet. Man kan också höra lärare säga: ”Du är på nivå E och för att nå nivå C behöver du lära dig…”. Ett tydligt kvitto på att metaforen om kunskaper som en trappa, nivåer eller en stege slagit rot i fältet.

Den här typen av metaforer och sätt att tänka kan dock visa sig vanskligt när elevernas faktiska kunskaper ska bedömas. Låt oss ta ett exempel… Man skulle kunna tänka sig att bråktalen i matematik ska förstås relativt tidigt. I läroplanen nämns också bråk redan i målen för årskurs 3. Men att förstå vad är bråk visar sig svårare än man kan tro, i verkligheten. Framförallt är det påtagligt svårt att se när man begripit bråk, rent principiellt. Dels varierar elevernas förståelse beroende på hur olika problem och uppgifter ser ut, dels varierar de utifrån hur kunskaperna prövas – man får skillnader i utfallet om kunskaperna prövas med ett skriftligt prov eller i en muntlig intervju, exempelvis. Gallacher och Johnson skriver:

the idea that progression through levels can be reliably assessed is a simplification since learners can inconsistently demonstrate a range of abilities that do not support a hierarchy based solely on conceptual difficulty. Hart (1981), as cited in Simons and porter (2015), shows examples of students who can demonstrate an ability when asked one way, but not another. For example, in the case of the conceptual difficulty of “knowledge of fractions”, 90 per cent of students can respond that 5/7 is greater than 3/7, but only 15 per cent can respond that 5/7 is greater than 5/9. this difference exists despite the assumed conceptual commonality of denominator and numerator knowledge that underpins fraction knowledge. Differences have also been found between students’ performances on the same skills depending on whether they were assessed by a class test or by an individual interview (Denvir & Brown, 1987, p.106).

Så att döma av forskningen så är kunskapsutveckling något multidimensionellt och inte alls linjärt och trappstegsliknande som betygsskalan och kunskapskraven tycks säga oss. Istället kan troligen eleven saker på olika nivåer i den hierarki vi konstruerat. Och eleven kan också ha motsägelsefulla eller brokiga kunskaper från ett par olika nivåer samtidigt. Bedömningarnas tillförlitlighet är dessutom såpass vacklande att även de ger mixade bilder av vad eleven kan. Vi kan av exemplet ovan förstå att en elev kan förstå principerna för bråkräkning (exempelvis) i delar, men inte i andra. En praktisk slutsats för lärare (från detta) blir troligen att vara mer uppmärksam på motsägelsefullheter i elevernas visade kunskap – för att kunna ge mer ändamålsenlig återkoppling. (Ironiskt nog kritiserar många nationella proven i engelska eftersom de har flera delprov som kan visa på olika kompetensnivå i ämnets olika delar. Dessa brokiga prestationer i ämnets olika delar kompenseras sedan till ett provbetyg. Det är förstås ett tillvägagångssätt som är mer passande i förhållande till hur elevernas kunskaper i ämnet egentligen ser ut, men som vid ytlig betraktelse inte alls verkar stämma med bestämmelserna för betygsskalan.)  Tom Gallacher and Martin Johnson skriver ”teaching and assessment need multiple dimensions to understand variance in performance rather than the unidimensional ladder analogy. Feedback which reflects a learner’s inconsistencies would arguably be more useful for planning future educational activities required by educators.”

Avslutningsvis. Det tycks som vi hamnat i en ”kartan eller terrängen”-konflikt i skolväsendet, när det gäller progression. Kunskaperna ska bedömas utifrån kunskapskraven och inte sällan används de som utgångspunkt för feedback. Progressionen (och kunskapernas beskrivning i stort) är dock för grovhuggen i förhållande till den komplexitet och variation man kan se i en elevs kunskaper. I värsta fall misstar vi således kartan för terrängen. För elevens del blir troligen feedbacken mer hjälpsam – och betyget mer rättvist – om lärarna utgår från det de ser, snarare än det de borde se.

Lämna en kommentar

Under Bedömning, Debatt, Empiriska studier, Skola, Teoribildning, Undervisning, Utbildning

Poäng på prov?

9781412916820_200x_standard-setting

En sak man ofta hör från lärare är att man inte kan ha prov med poäng på. Är det så? Låt mig försöka svara på ett så lekmannamässigt sätt som jag nu kan. Svaret utgår från boken Standard setting (2007) av Gregory Cizek. Har den som pdf men vågar inte dela den här. Kan dock dela min powerpoint på boken från när jag redovisade den på Skolverket, 2010.

För att svara på frågan behöver vi backa till vad vi egentligen vill veta. Alltsomoftast vill vi veta vad andra vet. Anledningen till att vi vill veta det är att vi vill ge höga betyg till de som vet mer eller bättre, än de som vet mindre eller sämre.

Om kunskaperna är färdigheter som förmågan att köra bil så kan man inte enbart ”mäta förmågan” med ett poängsatt, skriftligt prov utan troligen behöver man ha nåt slags praktiskt förarprov också för att få acceptans för att provet kan säga nåt om hur duglig man är som förare.

Om kunskaperna är rent teoretiska så är det lättare att tänka sig poängsatta prov kan fungera – utifrån långa traditioner i skolan om inte annat. Förmågan att lösa matematiska problem är dock nåt man kan tänkas redovisa både muntligt och skriftligt. För att få en allsidig bild av någons kunskaper i matematik behöver man ofta se en person lösa matematiska problem i lite olika situationer och under lite olika villkor.

Hur gör man då poängsatta prov i förhållanden till kunskapskrav eller olika ”curriculum demands”?

Normalt sett följer man en process som ser ut såhär:

  1. På en forskningsinstitution där man kan mycket om mätteori och kunskapsbedömning inom ett visst ämne så samlar man experter inom ett visst ämne och årskurs för att ta fram provet. Det första man tittar på är provets syfte. Det styr provets design mer än något annat.
  2. Utifrån experternas råd och med hjälp av yrkesverksamma lärare i årskursen och ämnet börjar man ta fram uppgifter som passar syftet och ämnet och elevens ålder. Man diskuterar uppgifterna och försöker ta bort konstiga uppgifter som bar brister eller är lätta att missförstå eller inte alls handlar om ämnet eller syftet med provet. De uppgifter man har kvar prövar man ut på sisådär 500 elever.
  3. När man får in utprövningsdata så kan man beräkna hur svår en uppgift är samt hur väl den diskriminerar mellan olika kunskapsnivåer. Inom klassisk testteori används oftast helt enkelt andelen rätt svar som mått på uppgifterna svårighetsgrad. Olika uppgifter sorterar olika bra mellan kunskapsnivåer (diskriminering). En uppgift som diskriminerar bra kännetecknas av att få mindre kunniga elver svarar rätt på uppgiften och många mer kunniga elever svarar rätt på uppgiften. Ett exempel kan vara att mindre kunniga elever här är elever som har kunskaper motsvarande betyget C och mer kunniga elever här motsvarande betyget A. Man kollar vilka som är svårast och man kollar att de håller ihop. Om det finns nån uppgift som både de bästa eleverna har 50/50 på och de sämsta har 50/50 på så brukar den slängas p.g.a. för dålig diskriminering. En uppgift ska hjälpa att avslöja vem som är bättre än nån annan. Det finns olika mått för att att kontrollera att uppgifterna testar ungefär samma sak, dvs att de hänger ihop, Cronbach alfa brukar användas inom klassisk testteori. Uppgifter som diskriminerar dåligt bidrar lite till att få provet att hänga ihop. Chronbachs alfa brukar sägas vara ett mått på provet reliabilitet (mätsäkerhet) och ju fler uppgifter med hygglig diskrimineringsförmåga desto högre reliabilitet.
  4. Ungefär här börjar man med möten med paneler med yrkesverksamma lärare. Här följer man ofta nån av de metoder som finns för att avgöra kvalitativa skillnader i provresultaten. Den mest populära metoden kallas Angoff-metoden. När man följer den så diskuterar man med panelen vad som menas med godtagbara kunskaper i ämnet och årskursen. Man tittar på kursplaner och krav och försöker konceptualisera den miniminivå som ska finnas i ämnet och årskursen. Efter det får varje panelmedlem skatta hur stor chans det är att en gränsfallselev skulle klara var och en av uppgifterna på provet (uttryckt som procent). Utifrån skattningarna kan man få en första bild av hur många poäng som krävs för att få ett godkänt resultat på provet. Det är den så kallade kravgränsen, för precis den elev som ska ha ett godkänt betyg som man försöker identifiera.
  5. När alla panelmedlemmar gjort sina skattningar och man räknat ut vad det skulle innebära i termer av poäng för den elev som precis ska ha ett godkänt betyg. Man får då se item p-värdena från utprövningen. Om nån vill skatta om en uppgift utifrån det så går det bra.
  6. Man räknar så ut en ny kravgräns. I det här skedet ska man enligt Gregory Cizek, ha en diskussion om kravnivån är rimlig utifrån skolsystemet och samhället. Dvs är kravgränsen hållbar? Den slutliga kravgränsen beslutas av den myndighet som har uppdraget att fastställa kravnivåer för skolväsendet.
  7. Man upprepar sedan proceduren med skattningar utifrån nästa nivå. Den första kallas ofta för basic i litteraturen och den andra nivån kallas proficient. Det kan man tänka motsvarar nivåer som E och C som provbetyg i vårt system.
  8. Det bärande i alla kravgränssättningsmetoder är att man följer en föreskriven procedur utifrån ett ramverk man har för provframtagande. Man dokumenterar också avvikelser ifrån ramverket och man utvärderar sitt arbete med hjälp av oberoende forskare så att man har en stringens i provframtagandet. I själva verket så ligger själva rättvisan i ett prov aldrig i en absolut rättvisa utan i en procedurell rättvisa. Precis som i en domstol kan man aldrig vara helt säker på att man kommer fram till sanningen med stort S, men man ska kunna vara säker på att domstolen och provet följer reglerna för avgörandet.

Så tillbaka till det här med poäng på prov. Av ovan kan man se att metoder för provframtagande följer vetenskapliga krav på öppenhet, granskning och kvalitetssäkring. Man väljer ut de uppgifter till provet som bidrar till ökad reliabilitet och innehållslig validitet. Många kan nog anklaga poängprov för bristande validitet. Men, märk väl, reliabiliteten är ett nödvändigt villkor för validiteten.

Poängsatta prov har helt en mycket högre reliabilitet än betygsbedömningar av uppsatser eller muntliga presentationer. Ska man dessutom skilja ut sex (6) olika betyg så kommer kvalitativa bedömningar att överlappa rätt kraftigt. Det visar erfarenheten från världens alla hörn. Det leder till skräpig reliabilitet och då blir ju inte provbetyget särskilt mycket att räkna med heller.

Så hur man än gör så har man ändan bak. Att man kan ha poäng på prov är däremot sant. Men man behöver ta ställning till vad poängen säger om elevens kunskaper, vilken poäng som är lite svårare att få än en annan och liknande.

Ja, herreminje. Lycka till med provkonstruktionen där ute, kära kollegor! 🙂

Lämna en kommentar

Under Bedömning, Boktips, Empiriska studier, Skola, Undervisning, Utbildning

Dricker kejsaren kaffe?

KUH1985004K137

Kafka skildrar i sin novell Ett kejserligt budskap en befallning från den store kejsaren i rikets mitt som aldrig når fram till den lilla människan som sitter hemma vid fönstret och bara längtar efter ett uppdrag. Kan dagens lagar och regler bära hela vägen fram? Hörs budskapet från riksdagen? Eller blandas det bort och tunnas ut i kakafonin av rapporter, allmänna råd, benchmarks, ägardirektiv, kommunala måldokument, utvärderingar och studier?

Är det kanske dags att ompröva vår tilltro till skriftliga regler, resultatmått och policys? Gunnar Ekman skriver om detta på ett klart och begripligt sätt i sin doktorsavhandling. De första sidorna i hans avhandling beskriver på ett närmast klockrent sätt traditionen att styra med text. I hans bok handlar det om styrningen av polisen, om att gå från ”Text till batong”, i skolans värld handlar det om att gå från läroplan till undervisningspraktik. Styrdokumenten tjänar dock även funktionen att representera vissa ideal… så redan här blir det en konflikt mellan det vi säger att verksamheterna är på pappret och vad de egentligen är. Det gäller nog lika mycket på skolan, som på polisstationen.

I värsta fall blir texterna om verksamheterna rena illusioner och omöjliga att följa. Då skapas en öst-statifiering i verksamheterna, där gräsrotsbyråkrater som lärare och poliser börjar skaka på huvudet och bilda egna normer över kaffekoppen på jobbet. Där är förstås inte chefen eller rektorn eftersom hen sitter böjd över olika resultatdokument som tyvärr inte visar vad hens personal jobbar med, utan som svarar mot olika benchmarks som ännu högre chefer satt upp.

De har heller inte pratat med poliserna i fältet eller lärarna på golvet. Läs sidorna 1-3, riktigt snygg öppning på boken.

https://ex.hhs.se/dissertations/221680-FULLTEXT01.pdf

Eller kan vi kanske övergrygga problemen och nå längre? Erik Wikberg, verksam vid Handelshögskolan i Stockholm, tycks i sitt paper Polysemy and plural institutional logics (2017) ändå vilja tro att framtiden ligger i att lyckas hantera mångtydiga måldokument. Han förefaller mena att med hjälp av mångtydiga måldokument så ska verksamheter kunna styras mot ”kvalitet”, genom att de försöker utnyttja det motsägelsefulla i målen, i stället för att renodla bort komplexiteten med hjälp av olika enkla mått.

Wikberg ser styrdokument, regelverk, benchmarks och mål som olika typer av institutionella logiker som ligger som styrande sedimentlager i en organisation. Även de konflikter som kan finnas mellan olika institutionella logiker skulle kunna utnyttjas för att försöka komma närmare det som är bra, snarare än att styras bort från det. En journalist som tvingas balansera mellan marknadslogiken och sin yrkesetik får då balansera ut olika sedimentlager av styrning för att nå så långt som möjligt, i riktning mot kvalitet, för att använda hans eget exempel.

Wikberg tycks dock vara lite försiktig när det gäller hur olika lager viktas mot varandra. Det konkreta kan ju tänkas få väga tyngre än det abstrakta? Alla arbetsplatser vet väl om att det är enklare att diskutera var cykelstället ska stå, än hur man ska arbeta med ”bemötandefrågor”.

Att management och forskningen om ledarskap till slut skulle möta den moderna språkforskningen är väl klart, men på regeringskansliet och på våra olika myndigheter råder – detta till trots – en fortsatt optimism kring förutsättningarna för att lära verksamheterna att göra rätt genom att ge dem rätt instruktioner.

Så mötet med det mångtydiga och med språkspelen och konflikterna mellan olika lager av styrning blir kanske bara ett möte på pappret i akademiska texter – inte ett möte mellan ledare och ledd över en kaffekopp, på golvet. Frågan blir kanske till slut: dricker kejsaren kaffe? 😉

Lämna en kommentar

Under Humor, Ledarskap

Det gäller livet

Anxiety is the result of the perception of one’s condition. What does it mean to be a self-conscious animal? The idea is ludicrous, if it is not monstrous. It is to know that one is food for worms. This is the terror: to have emerged from nothing, to have a name, consciousness of self, deep inner feelings, an excruciating inner yearning for life and self-expression—and with all this yet to die.

– Ernest Becker

Du vet att klimatet går åt pipsvängen och att den ultra-nationalistiska Kalle Anka-appellen ”Make America Great Again” har ersatt ”Yes We Can”?  Du vet att demokrati blivit oligarki?  Du vet att allt blivit orättvist och fel? Du vet att det gäller livet?

I denna tid behöver vi mening. Vi har alltid behövt den, men vi har nog aldrig behövt den så som idag. Någonsin.

Nyheterna om masskjutningar, om slopade kärnvapenavtal och den utdragna kampen om icke-händelsen Brexit borde informera oss. Misshandel på stan, att unga rånar varandra och skotten och explosionerna borde säga oss nåt. Och mitt i detta: alla dessa distraktioner, alla dessa spel, allt detta rus. Vi dricker en bib med vin, inte en flaska. Vi ser på en hel teveserie, inte ett avsnitt. Vi dygnar på spelhålorna eller framför datorn, inte roar oss ett par timmar.

Och konstigt nog. Den energi vi lägger i flykten finns inte för räddningen? Få orkar längre läsa en bok som är över 180 sidor. Män läser manualer och faktaböcker, sägs det. Kvinnor läser skönlitteratur. Men vem läser böcker som talar om hur det är, som gör en illa berörd och får en att tänka ”vad kan vi göra åt det”? När tänkte du senast på ett problem (utan avbrott) en hel timma? Om du är som jag så gör du det allt mer sällan.

Jag pratar inte om att vi borde bli vänster, miljöaktivister eller hoppa på nån -ism. Jag har inget annat svar än ditt eget. Du vet redan att du bara lever en gång. Du känner redan till frågan: hur ska du göra för att ditt liv ska vara värt det?

Frågan handlar om din mening. Sokrates utgick från den. Oraklet i Delfi likaså. Du vet att du lever. Du vet att du ska dö. Du förstår att det innebär att du vill göra nåt som känns meningsfullt för dig. Som gör att du känner att det är värt det i slutändan.

Varför talar jag då om dessa morbida saker? Det låter mörkt och en smula präktigt att mässa om så stora frågor.  Fast det jag skriver om här är egentligen människans grundläggande motivation. Hennes grundläggande drivkraft. Jag tror att allt lärande handlar om de syften vi upplever som värdefulla, om att det vi gör med vårt liv till slut måste vara relevant i förhållande till nån slags mening. Det handlar – tror jag – om att vakna upp och inse att det är upp till mig. Det är mitt liv. Jag kan göra nåt med det innan det är för sent.

Om jag som lärare minns att varje människa har sitt enda liv. Sin mening. Då möter jag mina elever med aktning. Med ödmjukhet. Med kärlek rentav. Förstår deras flykt för den är naturlig, i vissa stycken nödvändig. Frågan om vad man vill göra med tiden som är kvar behöver ändå lyftas, då och då, och på nåt sätt hållas levande. Vi kan hjälpas åt att se det större sammanhanget, meningen med allt. Inte som universellt svar utan som fråga.

Jag tror inte att det i slutändan handlar om betygen, lönen eller gravstenens storlek. Det handlar som livet och dess mening, som du ser den.

– – –

Fritt efter sommarens läsning:

Rollo May,  The Courage to Create och Man’s Search for Himself

Ernst Becker, The Denial of Death

Paul Tillich, The Courage to Be

Carl Rogers, On Becoming a Person

 

 

 

 

Lämna en kommentar

Under Motivation, Teoribildning, Uncategorized, Undervisning, Utbildning

”Some are more equal than others”

Kommunerna i Stockholms Län (KSL) skriver:

”Elevperspektiv – lagen om lika villkor

Idag finns det flera exempel där en enskild kommun beslutat om avvikelser från prislistan framförallt i relation till sina egna skolor.

Förutom att det skapar problem för trovärdigheten och legitimiteten kommunerna emellan så innebär det också att det skapar olika förutsättningar för olika elever.

Ska det, inom ramen för samverkansavtalet och den gemensamma prislistan, vara möjligt för en kommun att göra enskilda avvikelser?” (Dnr:KSL/12/0262-4)

Titta! Titta hur kommunerna i Stockholms län skriver ur sig ur det kompensatoriska uppdraget!!!

Samhället och skolan ska inte längre kompensera för de olikheter som finns i elevernas förutsättningar. Elevpengen ska vara lika stor oavsett hur elevgruppen ser ut – oavsett om eleverna har A i alla ämnen från nian eller E i alla ämnen så ska de ha samma elevpeng!

Och detta har man dessutom mage att kalla ett ”elevperspektiv” och ”lika villkor”. Lika för vem? Ska inte skolan göra nåt åt skillnaderna mellan att växa upp i en välutbildad familj med resurser, och en utan?

De kommuner som eventuellt skulle skjuta till pengar till en klass som har svårigheter ”skapar problem för trovärdigheten och legitimiteten kommunerna emellan”!!!

Jag har begärt ut alla handlingar från KSL om hur prissättningen gått till, hur man kommit fram till priserna för varje elevplats per program. Det finns inte en tillstymmelse till beredning – inga underlag ur verklighetens skola, om hyror, lönekostnader, läromedel, osv., inte från nånstans i hela länet.

I dagens Sverige tar samhället inte ens ansvar för att skapa lika förutsättningar för barn och unga. Alla får lika mycket hjälp oavsett behov.

Lämna en kommentar

Under Uncategorized

Ikväll om nationella prov på teve!

teve

Prov som ger rättvisa betyg?

Ikväll visar Uppdrag granskning ett reportage om de nationella proven. I tidningen står det: ”Det nationella provet ska hjälpa lärare att sätta rättvisa betyg och göra betygen likvärdiga i hela landet”. Men hur är det med den saken? Gör de det? Låt oss titta lite på hur det kan se ut.

En bild som finns med i de flesta analyser av nationella prov är relationen mellan det nationella provets resultat, det så kallade provbetyget och det betyg läraren sätter. Enligt testteoretiska antaganden borde man med ett stickprov av väl valda frågor (som motsvarar de kunskaper som ska betygssättas) kunna få en bra bild av hur betygen ska fördela sig i stora populationer. I små grupper blir de statistiska osäkerheterna stora men för säg populationen ”alla elever i årskurs 9” ska sådana här prov ge en rätt bra bild.

Såhär ser en typisk avvikelse mellan prov och provbetyg ut i ämnet matematik i årskurs 9:

avvikelser-ma-2011

Vissa skolor avviker över 80% från provresultatet. Skolverket betecknar en avvikelse på cirka 40 procent som ”relativt hög” i jämförelse med riksgenomsnittet på 24 procent. Lärarna verkar inte alls göra samma bedömning av elevernas kunskaper som provet gör? Vad nu det beror på. (Kanske vet de om nåt som ett standardiserat skriftligt prov inte förmår mäta?)

När det ser som bäst ut (som nedan), i ämnet engelska, så följs prov och provbetyg åt. Men så ser det mera sällan ut i de rapporter och analyser som Skolverket ger ut, eller i den senaste utredningen av provsystemet, SOU 2016:25. (Märker ni att lärarna sätter ett lite högre betyg 1999, när provet är svårare än vanligt, och ett lite lägre betyg när provet var lättare 2003? Det vill säga: lärarnas betygssättning är jämnare än provets).

avvikelser-engelska

Är provet lika svårt varje år?

En annan intressant fråga är ju hur jämnt eller likvärdigt provet mäter kunskaperna. Låt oss titta på hur många procent av en årskull som får ett underkänt resultat på nationella provet i matematik i årskurs 9. Siffrorna har jag hämtat från SIRIS där all offentlig statistik om proven finns.

Läsår Procentandel med underkänt provresultat på nationella provet i matematik årskurs 9
2014/15 18,8
2013/14 12,5
2012/13 10,4
2011/12 17,0
2010/11 19,3

 

Det är cirka 110 000 elever som skriver provet i matte i nian. Förändringar i provresultat över tid antas, utifrån testteorin bli relativt små. På sikt borde man kunna se om kunskaperna växer eller krymper i riket. Stora mellanårsvariationer kan inte bero på något annat än det vi kan kalla ett mätfel.

Mellan läsåret 2012/13 och 2010/11 uppgår skillnaden till 9,5 procentenheter. Över 10 000 elever i differens.

Det innebär att ena året fick över tiotusen fler elever i årskurs nio tillbaka ett prov med ett underkänt resultat, än det andra året. Den skillnaden beror dock inte (rimligen) på att de kunde mindre, utan på att provet inte mäter tillförlitligt, eller så är det rentav så att provet mäter olika saker olika år?

Utifrån det ovanstående får man nästan formulera om Uppdrag gransknings underrubrik till en fråga: hjälper verkligen de nationella proven lärare att sätta rättvisa betyg och lyckas de bidra till att göra betygen likvärdiga i hela landet? En fråga som verkar kunna få ganska olika svar beroende på hur man tittar.

Friskolorna då?

I debatten sägs det ibland att friskolorna nog är mer generösa med betygen än de kommunala. Man refererar ibland till IFAU som funnit att det finns en statistiskt säkerställd skillnad mellan de skolor som har en enskild huvudman och de skolor som har en offentlig. Det stämmer, men hur stor är den skillnaden? Den illustreras i nedanstående bild.

differens-friskolor

Men skillnaden är inte iögonfallande stor om man ser det på det här sättet, eller hur? I själva verket uppgår skillnaden till en glidning på 0,035 meritpoäng. Men skillnaden är statistiskt säker. Men är den stor?

Betygsinflationen då?

Frågan om vi har en betygsinflation har diskuterats och många är nog eniga om att betygen sakta glider. Man tycks dock se att i de ämnen som har nationella prov, så har dessa ämnen en mer återhållsam betygsglidning. Se nedanstående bild, där det ser ut som att betygen glider i praktisk-estetiska ämnen, medan glidningen förmodligen är obetydlig i ämnena svenska, engelska och matematik. Skillnader i Cohens d på 0,5 brukar anses som medelstora, skillnader på 0,2 som små. Bilden är hämtad från Skolverket.

namnlost

Avslutningsvis

Ska bli intressant att se vad SVT kommer fram till. Många tycker nåt om prov, men få tittar närmre på detaljerna. Det är synd, för provkonstruktion handlar mycket om detaljer. Tanken att proven hjälper lärarna sätta rättvisa betyg tycks lite problematisk, enligt ovan. På samma sätt tycks föreställningen att friskolor myglar också lite svag. Sen verkar det finnas indikationer på att proven håller tillbaka betygsinflation, och det är ju bra. Ja, så inte vet jag. Gör din egen bedömning.

I boken ”Measuring Up – What Educational Testing Really Tells Us” skriver Daniel Koretz att provkonstruktion är lite som korvtillverkning. Ju mer man vet om det, desto mindre…

 

 

Post scriptum om Om Cohens d 

I ”Vad påverkar resultaten i svenska grundskola” (Skolverket, 2009), länkad ovan, skriver man såhär om Cohens d:

standardiserade medelvärdedifferenser, där standardiseringen görs med medeltalet av standardavvikelserna inom grupperna. Detta standard- avvikelseenhetsmått, som börjar bli alltmer allmänt accepterat (se t.ex. Hattie, 2009), betecknas ofta Cohens d eller bara d. En stor fördel med detta mått är att existerar relativt väletablerade tumregler för tolkning av storleksordningen
av d som effektmått i exempelvis experimentella studier. I sådana sammanhang räknas d-värden runt 0,20 som små, d-värden kring 0,50 som medelstora, och d-värden över 0,80 som stora. Det måste dock understrykas att tolkning av storleken av d är beroende av det fenomen som studeras (Hattie, 2009). En an- nan stor fördel med d-måttet är att vi kan göra jämförelser mellan variabler som vanligtvis inte direkt låter sig jämföras. Det är denna egenskap hos d som vi här framförallt kan dra nytta av. I detta kapitel kommer vi därför genomgående använda oss av d-måttet och i allmänhet kommer vi enbart att presentera resultaten i grafisk form.

 

 D.S.

Lämna en kommentar

Under Bedömning

Hur fel det kan bli


Prov mäter vad en elev kan. Det vet ju alla. Du fick 20 poäng och fick ett C. Logiskt. Vetenskapligt. Odiskutabelt.

Eller?

Oddsen att eleven verkligen fick 20 poäng egentligen är inte så jättebra som man skulle kunna tro.

Om vi för en stund djärvt antar att provet är relevant, representativt och att kravgränserna är riktiga så finns det ett enkelt sätt att visa hur fel (eller rätt) en enskild mätning trots allt är. 

Felet beror på SEM (Standard Error of Measurement). Om man accepterar testteorin så följer detta begrepp med. Det innebär att man har en modell för att beräkna felet i en enskild mätning.

Bilden

Titta på bilden nedan. Varje stapel visar hur många procent av testtagarna på nationellt prov i matematik B som fick en viss poäng.

Staplarna bildar en klockkurva. (Enda lustigheten är stapeln för ett poäng över godkänt som är oväntat hög: ”Oops, Lisa fick visst rätt på fråga 11, ändå” 😉)

Men om vi tittar på den gula stapeln: en elev som fått 15 poäng.

namnlost

Och om vi vill ha ett 95 procentigt konfidensintervall för den ”sanna” poängen så bör den ligga mellan 9 och 21 poäng. Illustreras i bilden med den lilla röda klockkurvan. (Bild och resonemang hämtat från SOU 2016:25).

Rätt häpnadsväckande – inte sant?

Eleven som fick 15 poäng, fick egentligen mellan 9 och 21 poäng om vi vill vara 95% säkra på vad eleven fick. (Eller såhär: 5 av 100 elever med 15 poäng har kunskaper som motsvarar en poäng lägre än 9 eller högre än 21).

Och sen blir det värre…

Tittar vi sen på forskningen om bedömning av elevuppsatser skrivna på modersmålet (och andra liknande produkter) så blir det ändå värre. 

Variabiliteten mellan olika bedömare är stor, jättestor. (Se till exempel Educational Measurement, 4 ed, Brennan (red). Som bäst kan man nog till vardags räkna med att olika bedömare är överens i lite över hälften av bedömningarna (både med sig själv och med andra). 

Och nä, forskningen har inte kunnat visa att sambedömning leder till att man blir särskilt mer överens, i varje fall inte i skarpt läge. Det är skillnad på träning och tävling.

Avslutningsvis. Det blir fel. Vi gör fel. Allihopa. Vi är del i en mänsklig verksamhet – testteorins mätningar till trots. Ödmjukande.

1 kommentar

Under Bedömning