Category Archives: Bedömning

Ikväll om nationella prov på teve!

teve

Prov som ger rättvisa betyg?

Ikväll visar Uppdrag granskning ett reportage om de nationella proven. I tidningen står det: ”Det nationella provet ska hjälpa lärare att sätta rättvisa betyg och göra betygen likvärdiga i hela landet”. Men hur är det med den saken? Gör de det? Låt oss titta lite på hur det kan se ut.

En bild som finns med i de flesta analyser av nationella prov är relationen mellan det nationella provets resultat, det så kallade provbetyget och det betyg läraren sätter. Enligt testteoretiska antaganden borde man med ett stickprov av väl valda frågor (som motsvarar de kunskaper som ska betygssättas) kunna få en bra bild av hur betygen ska fördela sig i stora populationer. I små grupper blir de statistiska osäkerheterna stora men för säg populationen ”alla elever i årskurs 9” ska sådana här prov ge en rätt bra bild.

Såhär ser en typisk avvikelse mellan prov och provbetyg ut i ämnet matematik i årskurs 9:

avvikelser-ma-2011

Vissa skolor avviker över 80% från provresultatet. Skolverket betecknar en avvikelse på cirka 40 procent som ”relativt hög” i jämförelse med riksgenomsnittet på 24 procent. Lärarna verkar inte alls göra samma bedömning av elevernas kunskaper som provet gör? Vad nu det beror på. (Kanske vet de om nåt som ett standardiserat skriftligt prov inte förmår mäta?)

När det ser som bäst ut (som nedan), i ämnet engelska, så följs prov och provbetyg åt. Men så ser det mera sällan ut i de rapporter och analyser som Skolverket ger ut, eller i den senaste utredningen av provsystemet, SOU 2016:25. (Märker ni att lärarna sätter ett lite högre betyg 1999, när provet är svårare än vanligt, och ett lite lägre betyg när provet var lättare 2003? Det vill säga: lärarnas betygssättning är jämnare än provets).

avvikelser-engelska

Är provet lika svårt varje år?

En annan intressant fråga är ju hur jämnt eller likvärdigt provet mäter kunskaperna. Låt oss titta på hur många procent av en årskull som får ett underkänt resultat på nationella provet i matematik i årskurs 9. Siffrorna har jag hämtat från SIRIS där all offentlig statistik om proven finns.

Läsår Procentandel med underkänt provresultat på nationella provet i matematik årskurs 9
2014/15 18,8
2013/14 12,5
2012/13 10,4
2011/12 17,0
2010/11 19,3

 

Det är cirka 110 000 elever som skriver provet i matte i nian. Förändringar i provresultat över tid antas, utifrån testteorin bli relativt små. På sikt borde man kunna se om kunskaperna växer eller krymper i riket. Stora mellanårsvariationer kan inte bero på något annat än det vi kan kalla ett mätfel.

Mellan läsåret 2012/13 och 2010/11 uppgår skillnaden till 9,5 procentenheter. Över 10 000 elever i differens.

Det innebär att ena året fick över tiotusen fler elever i årskurs nio tillbaka ett prov med ett underkänt resultat, än det andra året. Den skillnaden beror dock inte (rimligen) på att de kunde mindre, utan på att provet inte mäter tillförlitligt, eller så är det rentav så att provet mäter olika saker olika år?

Utifrån det ovanstående får man nästan formulera om Uppdrag gransknings underrubrik till en fråga: hjälper verkligen de nationella proven lärare att sätta rättvisa betyg och lyckas de bidra till att göra betygen likvärdiga i hela landet? En fråga som verkar kunna få ganska olika svar beroende på hur man tittar.

Friskolorna då?

I debatten sägs det ibland att friskolorna nog är mer generösa med betygen än de kommunala. Man refererar ibland till IFAU som funnit att det finns en statistiskt säkerställd skillnad mellan de skolor som har en enskild huvudman och de skolor som har en offentlig. Det stämmer, men hur stor är den skillnaden? Den illustreras i nedanstående bild.

differens-friskolor

Men skillnaden är inte iögonfallande stor om man ser det på det här sättet, eller hur? I själva verket uppgår skillnaden till en glidning på 0,035 meritpoäng. Men skillnaden är statistiskt säker. Men är den stor?

Betygsinflationen då?

Frågan om vi har en betygsinflation har diskuterats och många är nog eniga om att betygen sakta glider. Man tycks dock se att i de ämnen som har nationella prov, så har dessa ämnen en mer återhållsam betygsglidning. Se nedanstående bild, där det ser ut som att betygen glider i praktisk-estetiska ämnen, medan glidningen förmodligen är obetydlig i ämnena svenska, engelska och matematik. Skillnader i Cohens d på 0,5 brukar anses som medelstora, skillnader på 0,2 som små. Bilden är hämtad från Skolverket.

namnlost

Avslutningsvis

Ska bli intressant att se vad SVT kommer fram till. Många tycker nåt om prov, men få tittar närmre på detaljerna. Det är synd, för provkonstruktion handlar mycket om detaljer. Tanken att proven hjälper lärarna sätta rättvisa betyg tycks lite problematisk, enligt ovan. På samma sätt tycks föreställningen att friskolor myglar också lite svag. Sen verkar det finnas indikationer på att proven håller tillbaka betygsinflation, och det är ju bra. Ja, så inte vet jag. Gör din egen bedömning.

I boken ”Measuring Up – What Educational Testing Really Tells Us” skriver Daniel Koretz att provkonstruktion är lite som korvtillverkning. Ju mer man vet om det, desto mindre…

 

 

Post scriptum om Om Cohens d 

I ”Vad påverkar resultaten i svenska grundskola” (Skolverket, 2009), länkad ovan, skriver man såhär om Cohens d:

standardiserade medelvärdedifferenser, där standardiseringen görs med medeltalet av standardavvikelserna inom grupperna. Detta standard- avvikelseenhetsmått, som börjar bli alltmer allmänt accepterat (se t.ex. Hattie, 2009), betecknas ofta Cohens d eller bara d. En stor fördel med detta mått är att existerar relativt väletablerade tumregler för tolkning av storleksordningen
av d som effektmått i exempelvis experimentella studier. I sådana sammanhang räknas d-värden runt 0,20 som små, d-värden kring 0,50 som medelstora, och d-värden över 0,80 som stora. Det måste dock understrykas att tolkning av storleken av d är beroende av det fenomen som studeras (Hattie, 2009). En an- nan stor fördel med d-måttet är att vi kan göra jämförelser mellan variabler som vanligtvis inte direkt låter sig jämföras. Det är denna egenskap hos d som vi här framförallt kan dra nytta av. I detta kapitel kommer vi därför genomgående använda oss av d-måttet och i allmänhet kommer vi enbart att presentera resultaten i grafisk form.

 

 D.S.
Annonser

Lämna en kommentar

Filed under Bedömning

Hur fel det kan bli


Prov mäter vad en elev kan. Det vet ju alla. Du fick 20 poäng och fick ett C. Logiskt. Vetenskapligt. Odiskutabelt.

Eller?

Oddsen att eleven verkligen fick 20 poäng egentligen är inte så jättebra som man skulle kunna tro.

Om vi för en stund djärvt antar att provet är relevant, representativt och att kravgränserna är riktiga så finns det ett enkelt sätt att visa hur fel (eller rätt) en enskild mätning trots allt är. 

Felet beror på SEM (Standard Error of Measurement). Om man accepterar testteorin så följer detta begrepp med. Det innebär att man har en modell för att beräkna felet i en enskild mätning.

Bilden

Titta på bilden nedan. Varje stapel visar hur många procent av testtagarna på nationellt prov i matematik B som fick en viss poäng.

Staplarna bildar en klockkurva. (Enda lustigheten är stapeln för ett poäng över godkänt som är oväntat hög: ”Oops, Lisa fick visst rätt på fråga 11, ändå” 😉)

Men om vi tittar på den gula stapeln: en elev som fått 15 poäng.

namnlost

Och om vi vill ha ett 95 procentigt konfidensintervall för den ”sanna” poängen så bör den ligga mellan 9 och 21 poäng. Illustreras i bilden med den lilla röda klockkurvan. (Bild och resonemang hämtat från SOU 2016:25).

Rätt häpnadsväckande – inte sant?

Eleven som fick 15 poäng, fick egentligen mellan 9 och 21 poäng om vi vill vara 95% säkra på vad eleven fick. (Eller såhär: 5 av 100 elever med 15 poäng har kunskaper som motsvarar en poäng lägre än 9 eller högre än 21).

Och sen blir det värre…

Tittar vi sen på forskningen om bedömning av elevuppsatser skrivna på modersmålet (och andra liknande produkter) så blir det ändå värre. 

Variabiliteten mellan olika bedömare är stor, jättestor. (Se till exempel Educational Measurement, 4 ed, Brennan (red). Som bäst kan man nog till vardags räkna med att olika bedömare är överens i lite över hälften av bedömningarna (både med sig själv och med andra). 

Och nä, forskningen har inte kunnat visa att sambedömning leder till att man blir särskilt mer överens, i varje fall inte i skarpt läge. Det är skillnad på träning och tävling.

Avslutningsvis. Det blir fel. Vi gör fel. Allihopa. Vi är del i en mänsklig verksamhet – testteorins mätningar till trots. Ödmjukande.

Lämna en kommentar

Filed under Bedömning

Kritik av formativ bedömning

Science exists, moreover, only as a journey toward truth. Stifle dissent and you end that journey.

– John Polanyi, Nobelpristagare i kemi

I min värld och i min uppfattning har det här med formativ bedömning varit ganska oproblematiskt. Att ge eleverna återkoppling har alltid varit nåt jag gjort och nåt mina kollegor gjort. Jag har sett det som ett av många sätt att se eleverna och försöka påverka deras lärande i en positiv riktning – mot ökad självkänsla och ökad autonomi. För mig har det rört sig om att prata med dem om ämnen som intresserar dem och att låta dem få utlopp för egna hobbies och liknande i undervisningen. Det har också rör sig om att reagera på det de gör – d.v.s. att visa för dem att deras handlingar och tankar är viktiga för mig. Sedan har det förstås rört sig om en återkoppling kring deras kunskapsutveckling, hur de griper sig an arbetet i skolan, vad de åstadkommer och lär sig – och hur de kan komma vidare.

Det är framförallt återkoppling som det talats mycket om de senaste åren när man talat om ”formativ bedömning”. Att ge eleverna en återkoppling som relaterar till vad de åstadkommit (feedback), hur det åstadkomna förhåller sig till målen (feed-up) och vad de ska göra för att utvecklas (feed-forward). De parentetiska termerna är hämtade från Hattie & Timperly. Dylan Wiliams modell har jag refererat tidigare (är det inte mycket Vygotskij över den för övrigt?)

Återkoppling till eleven är dock bara ena sidan av formativ bedömning: att elevens lärande ger upphov till att man kan informera eleven om vad hon bör göra för att utvecklas. Den andra sidan av formativ bedömning är att elevernas lärande (bland annat deras arbetsprestationer och resultat) ger upphov till information om hur undervisningen kan anpassas, förändras och förbättras. Och läser man Hattie noga, som egentligen är ganska vag kring vad formativ bedömning är, så är det denna formativa utvärdering som är den riktigt viktiga… 

John Hattie och Dylan Wiliam har alltså visat på starka korrelationer mellan formativ bedömning och lärande. Men begreppet tycks ha fått en smalare tillämpning än det begrepp som beskrivs… Och är begreppet tydligt egentligen? Det verkar ju inkludera en lång grad olika processer och några rena metoder verkar den inte erbjuda. 

En mer realistisk bild av formativ bedömning börjar nu inställa sig då det börjar komma kritik av de höga effekttal som Hattie och Wiliam påstår att formativ bedömning ger. En sådan kritik finns i Invisible learnings som jag länkade till nyligen, men också i Randy Elliot Bennets Formative Assessment: a critical review, publicerad i Assessment in Education: Principles, Policy & Practice.

Bennet skriver att formativ bedömning som ett fenomen som lider av flera problem som måste åtgärdas eller områden som bör utvecklas för att metodernas fulla potential ska kunna realiseras. Bennet hävdar bland annat att:

  1. Begreppet formativ bedömning saknar en fungerande definition. Väldigt många olika metoder och tillvägagångssätt ryms i begreppet.
  2. Man har inte vägt in hur ett visst ämne kan använda formativ bedömning utan utgått från allmängiltiga principer för återkoppling och det finns de som menar att vad som utgör meningsfull återkoppling är ämnes- eller områdesberoende. Detta har inte hanterats i tillräckligt stor utsträckning.
  3. Svag mätsäkerhet i de effektstudier som gjorts.
  4. Den tidsåtgång som tillvägagångssättet genererar har inte vägts in då man värderat formativ bedömning. Det tar tidför läraren att bli förtrogen med de metoder som formativ bedömning kräver och den ämnesanalys som återkopplingen kräver.
  5. Och även om det finns befogat stöd för att formativ bedömning ger gynnsamma effekter på lärandet så är fenomenet för odefinierat och obeforskat för att man enkelt ska kunna säga att alla de metoder som kallas formativ bedömning har gynnsamma effekter.
  6. Dessutom är de stora effektnivåerna (som formativ bedömning påstås ha) suspekta givet de brister som man kan finna i den underliggande vetenskapliga bevisningen.
  7. För att formativ bedömning ska leverera gynnsamma resultat tarvas forskning om ämnesspecifik formativ bedömning.
  8. och så vidare

Om formativ bedömning (eller andra pedagogiska idéer, för övrigt) ska kunna utvecklas till redskap som får genomgripande effekter i skolan behöver de prövas, diskuteras och beforskas. Diskussionen om de pedagogiska rönen måste hållas öppen och bra tillämpningar av formativ bedömning måste skiljas från de dåliga.

Kanske kan inte vetenskapen heller ge oss färdiga verktyg, utan snarare idéer och koncept som kan inspirera oss i skolan att pröva nytt eller att försöka utveckla vår praktik?

1 kommentar

Filed under Bedömning, Debatt, Empiriska studier, Lärande, Teoribildning, Undervisning