Hur fel det kan bli



Prov mäter vad en elev kan. Det vet ju alla. Du fick 20 poäng och fick ett C. Logiskt. Vetenskapligt. Odiskutabelt.

Eller?

Oddsen att eleven verkligen fick 20 poäng egentligen är inte så jättebra som man skulle kunna tro.

Om vi för en stund djärvt antar att provet är relevant, representativt och att kravgränserna är riktiga så finns det ett enkelt sätt att visa hur fel (eller rätt) en enskild mätning trots allt är. 

Felet beror på SEM (Standard Error of Measurement). Om man accepterar testteorin så följer detta begrepp med. Det innebär att man har en modell för att beräkna felet i en enskild mätning.

Bilden

Titta på bilden nedan. Varje stapel visar hur många procent av testtagarna på nationellt prov i matematik B som fick en viss poäng.

Staplarna bildar en klockkurva. (Enda lustigheten är stapeln för ett poäng över godkänt som är oväntat hög: ”Oops, Lisa fick visst rätt på fråga 11, ändå” 😉)

Men om vi tittar på den gula stapeln: en elev som fått 15 poäng.

namnlost

Och om vi vill ha ett 95 procentigt konfidensintervall för den ”sanna” poängen så bör den ligga mellan 9 och 21 poäng. Illustreras i bilden med den lilla röda klockkurvan. (Bild och resonemang hämtat från SOU 2016:25).

Rätt häpnadsväckande – inte sant?

Eleven som fick 15 poäng, fick egentligen mellan 9 och 21 poäng om vi vill vara 95% säkra på vad eleven fick. (Eller såhär: 5 av 100 elever med 15 poäng har kunskaper som motsvarar en poäng lägre än 9 eller högre än 21).

Och sen blir det värre…

Tittar vi sen på forskningen om bedömning av elevuppsatser skrivna på modersmålet (och andra liknande produkter) så blir det ändå värre. 

Variabiliteten mellan olika bedömare är stor, jättestor. (Se till exempel Educational Measurement, 4 ed, Brennan (red). Som bäst kan man nog till vardags räkna med att olika bedömare är överens i lite över hälften av bedömningarna (både med sig själv och med andra). 

Och nä, forskningen har inte kunnat visa att sambedömning leder till att man blir särskilt mer överens, i varje fall inte i skarpt läge. Det är skillnad på träning och tävling.

Avslutningsvis. Det blir fel. Vi gör fel. Allihopa. Vi är del i en mänsklig verksamhet – testteorins mätningar till trots. Ödmjukande.

Annonser

Lämna en kommentar

Filed under Bedömning

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut / Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut / Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut / Ändra )

Google+ photo

Du kommenterar med ditt Google+-konto. Logga ut / Ändra )

Ansluter till %s