Ikväll om nationella prov på teve!


teve

Prov som ger rättvisa betyg?

Ikväll visar Uppdrag granskning ett reportage om de nationella proven. I tidningen står det: ”Det nationella provet ska hjälpa lärare att sätta rättvisa betyg och göra betygen likvärdiga i hela landet”. Men hur är det med den saken? Gör de det? Låt oss titta lite på hur det kan se ut.

En bild som finns med i de flesta analyser av nationella prov är relationen mellan det nationella provets resultat, det så kallade provbetyget och det betyg läraren sätter. Enligt testteoretiska antaganden borde man med ett stickprov av väl valda frågor (som motsvarar de kunskaper som ska betygssättas) kunna få en bra bild av hur betygen ska fördela sig i stora populationer. I små grupper blir de statistiska osäkerheterna stora men för säg populationen ”alla elever i årskurs 9” ska sådana här prov ge en rätt bra bild.

Såhär ser en typisk avvikelse mellan prov och provbetyg ut i ämnet matematik i årskurs 9:

avvikelser-ma-2011

Vissa skolor avviker över 80% från provresultatet. Skolverket betecknar en avvikelse på cirka 40 procent som ”relativt hög” i jämförelse med riksgenomsnittet på 24 procent. Lärarna verkar inte alls göra samma bedömning av elevernas kunskaper som provet gör? Vad nu det beror på. (Kanske vet de om nåt som ett standardiserat skriftligt prov inte förmår mäta?)

När det ser som bäst ut (som nedan), i ämnet engelska, så följs prov och provbetyg åt. Men så ser det mera sällan ut i de rapporter och analyser som Skolverket ger ut, eller i den senaste utredningen av provsystemet, SOU 2016:25. (Märker ni att lärarna sätter ett lite högre betyg 1999, när provet är svårare än vanligt, och ett lite lägre betyg när provet var lättare 2003? Det vill säga: lärarnas betygssättning är jämnare än provets).

avvikelser-engelska

Är provet lika svårt varje år?

En annan intressant fråga är ju hur jämnt eller likvärdigt provet mäter kunskaperna. Låt oss titta på hur många procent av en årskull som får ett underkänt resultat på nationella provet i matematik i årskurs 9. Siffrorna har jag hämtat från SIRIS där all offentlig statistik om proven finns.

Läsår Procentandel med underkänt provresultat på nationella provet i matematik årskurs 9
2014/15 18,8
2013/14 12,5
2012/13 10,4
2011/12 17,0
2010/11 19,3

 

Det är cirka 110 000 elever som skriver provet i matte i nian. Förändringar i provresultat över tid antas, utifrån testteorin bli relativt små. På sikt borde man kunna se om kunskaperna växer eller krymper i riket. Stora mellanårsvariationer kan inte bero på något annat än det vi kan kalla ett mätfel.

Mellan läsåret 2012/13 och 2010/11 uppgår skillnaden till 9,5 procentenheter. Över 10 000 elever i differens.

Det innebär att ena året fick över tiotusen fler elever i årskurs nio tillbaka ett prov med ett underkänt resultat, än det andra året. Den skillnaden beror dock inte (rimligen) på att de kunde mindre, utan på att provet inte mäter tillförlitligt, eller så är det rentav så att provet mäter olika saker olika år?

Utifrån det ovanstående får man nästan formulera om Uppdrag gransknings underrubrik till en fråga: hjälper verkligen de nationella proven lärare att sätta rättvisa betyg och lyckas de bidra till att göra betygen likvärdiga i hela landet? En fråga som verkar kunna få ganska olika svar beroende på hur man tittar.

Friskolorna då?

I debatten sägs det ibland att friskolorna nog är mer generösa med betygen än de kommunala. Man refererar ibland till IFAU som funnit att det finns en statistiskt säkerställd skillnad mellan de skolor som har en enskild huvudman och de skolor som har en offentlig. Det stämmer, men hur stor är den skillnaden? Den illustreras i nedanstående bild.

differens-friskolor

Men skillnaden är inte iögonfallande stor om man ser det på det här sättet, eller hur? I själva verket uppgår skillnaden till en glidning på 0,035 meritpoäng. Men skillnaden är statistiskt säker. Men är den stor?

Betygsinflationen då?

Frågan om vi har en betygsinflation har diskuterats och många är nog eniga om att betygen sakta glider. Man tycks dock se att i de ämnen som har nationella prov, så har dessa ämnen en mer återhållsam betygsglidning. Se nedanstående bild, där det ser ut som att betygen glider i praktisk-estetiska ämnen, medan glidningen förmodligen är obetydlig i ämnena svenska, engelska och matematik. Skillnader i Cohens d på 0,5 brukar anses som medelstora, skillnader på 0,2 som små. Bilden är hämtad från Skolverket.

namnlost

Avslutningsvis

Ska bli intressant att se vad SVT kommer fram till. Många tycker nåt om prov, men få tittar närmre på detaljerna. Det är synd, för provkonstruktion handlar mycket om detaljer. Tanken att proven hjälper lärarna sätta rättvisa betyg tycks lite problematisk, enligt ovan. På samma sätt tycks föreställningen att friskolor myglar också lite svag. Sen verkar det finnas indikationer på att proven håller tillbaka betygsinflation, och det är ju bra. Ja, så inte vet jag. Gör din egen bedömning.

I boken ”Measuring Up – What Educational Testing Really Tells Us” skriver Daniel Koretz att provkonstruktion är lite som korvtillverkning. Ju mer man vet om det, desto mindre…

 

 

Post scriptum om Om Cohens d 

I ”Vad påverkar resultaten i svenska grundskola” (Skolverket, 2009), länkad ovan, skriver man såhär om Cohens d:

standardiserade medelvärdedifferenser, där standardiseringen görs med medeltalet av standardavvikelserna inom grupperna. Detta standard- avvikelseenhetsmått, som börjar bli alltmer allmänt accepterat (se t.ex. Hattie, 2009), betecknas ofta Cohens d eller bara d. En stor fördel med detta mått är att existerar relativt väletablerade tumregler för tolkning av storleksordningen
av d som effektmått i exempelvis experimentella studier. I sådana sammanhang räknas d-värden runt 0,20 som små, d-värden kring 0,50 som medelstora, och d-värden över 0,80 som stora. Det måste dock understrykas att tolkning av storleken av d är beroende av det fenomen som studeras (Hattie, 2009). En an- nan stor fördel med d-måttet är att vi kan göra jämförelser mellan variabler som vanligtvis inte direkt låter sig jämföras. Det är denna egenskap hos d som vi här framförallt kan dra nytta av. I detta kapitel kommer vi därför genomgående använda oss av d-måttet och i allmänhet kommer vi enbart att presentera resultaten i grafisk form.

 

 D.S.
Annonser

Lämna en kommentar

Filed under Bedömning

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut / Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut / Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut / Ändra )

Google+ photo

Du kommenterar med ditt Google+-konto. Logga ut / Ändra )

Ansluter till %s