Kategoriarkiv: Bedömning

Kartan eller terrängen

 

En av de mer spridda begreppen i de rådande läroplanerna är ”progression”. Det talas om progressionsuttryck och om att läroplanen, det centrala innehållet och särskilt kunskapskraven ”har en tydlig progression”. Att man genom sin skolgång ska ha en progression i skolan förefaller alla människor vara eniga om. Men hur en sådan progression kan beskrivas och tillämpas är inte alls lika lätt att bli överens om. På det senaste har begreppet progression, eller learning progression (Lp) som det kallas på engelska fått tåla en tämligen rejäl sågning i Storbritannien: ”the findings we have presented suggest that the theory of learning that is inherent to the Lp approach is unhelpfully simplistic.”, skriver Tom Gallacher and Martin Johnson i det senaste numret av forskningsstidsskriften Research Matters, som ges ut av internationellt erkända Cambridge Assessment.

I Sverige verkar begreppet ännu fått liten kritik, eller så har kritiken eller problematiseringen fört en rätt undanskymd tillvaro. Man kan emellertid hitta texter som problematiserar begreppet. Ann-Marie Körling, rikskänd lärare, skriver i sin blogg redan 2011 om progression: ”Det centrala innehållet i årskurs 4-6 kring att skriva är att skriva och disponera sin text samt redigera dem (Lgr 11 s. 224). Det betyder alltså att skriva för hand och för dator får en utveckling mot att också inbegripa disposition och redigering. Vilket givetvis kan undervisas om under hela skolgången, redan tidigare om man så önskar.” Körling tycks märka att det inte finns någon särskild anledning att börja med det här centrala innehållet först i årskurs 4-6. I själva verket kan man börja med det tidigare ”om man så önskar”.

Skolverket själva vidgår lite av problemen med progression i ett av sina kommentarmaterial och skriver: ”När läraren eller lärarlaget ger sig i kast med uppgiften att i praktiken hitta en lämplig progression genom innehållet är det inte så lätt. Progression är i sig ett komplext begrepp, och det är ofta långt ifrån enkelt att anvisa en progression av ett innehåll som underlättar lärandet, särskilt inte om den ska passa alla”. Nedan en tabell från sagda kommentarmaterial och på samma sätt som i Körlings resonemang förefaller det inte som direkt orimligt att innehållet för årskurs 4-6 skulle kunna dyka upp redan 1-3. Se bilden nedan.

Progressionen i kunskapskraven

En annan Skolverkstext som problematiserar föreställningen om en rak lärandeprogression finns i bedömningsstödet för bild för årskurs 9. Där framskymtar en helt annan föreställning om lärandets utveckling än den trappstegsmodell vi får i centrala innehållet och kunskapskraven: ” lärande i praktiken har sällan en så enkel och linjär struktur. Lärandet kan snarare beskrivas som en zick-zackrörelse. Lars Lindström liknar den här ibland cirkulära eller slumpmässiga processen vid den gamla visan om prästens lilla kråka” (dvs, än slank han hit, än slank han dit). (Professor Lars Lindström var en pionjär inom pedagogisk bedömning, inom bildämnet.)

Det verkar, detta till trots, förhålla sig så att kunskapskraven ska förstås som att de har en rak progression. Bestämmelserna för betygsskalan lyder: ”Kraven för betygen A, C och E ska precisera vilka kunskaper som krävs för respektive betyg. Kunskapskravet för betyget D innebär att kraven för E och till övervägande del för C är uppfyllda. Kravet för betyget B innebär att även kraven för C och till övervägande del för A är uppfyllda.”  För att få betyget E behöver du uppfylla allt av vad som framgår av kunskapskravet för E. För att få C behöver du ha uppfyllt kraven för C, som antas ligga på en annan kvalitativ nivå ( ”Läraren i exemplet går först igenom sin sammanfattande dokumentation och analyserar och värderar vilken kvalitet en elev visat på sitt kunnande i förhållande till en del av kunskapskraven”, skriver Skolverket i sitt stödmaterial om betygsskalan). Betygsskalan bygger alltså på metaforer som nivå eller trappsteg, om ger uttryck för skillnader i kvalitet. Man kan också höra lärare säga: ”Du är på nivå E och för att nå nivå C behöver du lära dig…”. Ett tydligt kvitto på att metaforen om kunskaper som en trappa, nivåer eller en stege slagit rot i fältet.

Den här typen av metaforer och sätt att tänka kan dock visa sig vanskligt när elevernas faktiska kunskaper ska bedömas. Låt oss ta ett exempel… Man skulle kunna tänka sig att bråktalen i matematik ska förstås relativt tidigt. I läroplanen nämns också bråk redan i målen för årskurs 3. Men att förstå vad är bråk visar sig svårare än man kan tro, i verkligheten. Framförallt är det påtagligt svårt att se när man begripit bråk, rent principiellt. Dels varierar elevernas förståelse beroende på hur olika problem och uppgifter ser ut, dels varierar de utifrån hur kunskaperna prövas – man får skillnader i utfallet om kunskaperna prövas med ett skriftligt prov eller i en muntlig intervju, exempelvis. Gallacher och Johnson skriver:

the idea that progression through levels can be reliably assessed is a simplification since learners can inconsistently demonstrate a range of abilities that do not support a hierarchy based solely on conceptual difficulty. Hart (1981), as cited in Simons and porter (2015), shows examples of students who can demonstrate an ability when asked one way, but not another. For example, in the case of the conceptual difficulty of “knowledge of fractions”, 90 per cent of students can respond that 5/7 is greater than 3/7, but only 15 per cent can respond that 5/7 is greater than 5/9. this difference exists despite the assumed conceptual commonality of denominator and numerator knowledge that underpins fraction knowledge. Differences have also been found between students’ performances on the same skills depending on whether they were assessed by a class test or by an individual interview (Denvir & Brown, 1987, p.106).

Så att döma av forskningen så är kunskapsutveckling något multidimensionellt och inte alls linjärt och trappstegsliknande som betygsskalan och kunskapskraven tycks säga oss. Istället kan troligen eleven saker på olika nivåer i den hierarki vi konstruerat. Och eleven kan också ha motsägelsefulla eller brokiga kunskaper från ett par olika nivåer samtidigt. Bedömningarnas tillförlitlighet är dessutom såpass vacklande att även de ger mixade bilder av vad eleven kan. Vi kan av exemplet ovan förstå att en elev kan förstå principerna för bråkräkning (exempelvis) i delar, men inte i andra. En praktisk slutsats för lärare (från detta) blir troligen att vara mer uppmärksam på motsägelsefullheter i elevernas visade kunskap – för att kunna ge mer ändamålsenlig återkoppling. (Ironiskt nog kritiserar många nationella proven i engelska eftersom de har flera delprov som kan visa på olika kompetensnivå i ämnets olika delar. Dessa brokiga prestationer i ämnets olika delar kompenseras sedan till ett provbetyg. Det är förstås ett tillvägagångssätt som är mer passande i förhållande till hur elevernas kunskaper i ämnet egentligen ser ut, men som vid ytlig betraktelse inte alls verkar stämma med bestämmelserna för betygsskalan.)  Tom Gallacher and Martin Johnson skriver ”teaching and assessment need multiple dimensions to understand variance in performance rather than the unidimensional ladder analogy. Feedback which reflects a learner’s inconsistencies would arguably be more useful for planning future educational activities required by educators.”

Avslutningsvis. Det tycks som vi hamnat i en ”kartan eller terrängen”-konflikt i skolväsendet, när det gäller progression. Kunskaperna ska bedömas utifrån kunskapskraven och inte sällan används de som utgångspunkt för feedback. Progressionen (och kunskapernas beskrivning i stort) är dock för grovhuggen i förhållande till den komplexitet och variation man kan se i en elevs kunskaper. I värsta fall misstar vi således kartan för terrängen. För elevens del blir troligen feedbacken mer hjälpsam – och betyget mer rättvist – om lärarna utgår från det de ser, snarare än det de borde se.

Lämna en kommentar

Under Bedömning, Debatt, Empiriska studier, Skola, Teoribildning, Undervisning, Utbildning

Poäng på prov?

9781412916820_200x_standard-setting

En sak man ofta hör från lärare är att man inte kan ha prov med poäng på. Är det så? Låt mig försöka svara på ett så lekmannamässigt sätt som jag nu kan. Svaret utgår från boken Standard setting (2007) av Gregory Cizek. Har den som pdf men vågar inte dela den här. Kan dock dela min powerpoint på boken från när jag redovisade den på Skolverket, 2010.

För att svara på frågan behöver vi backa till vad vi egentligen vill veta. Alltsomoftast vill vi veta vad andra vet. Anledningen till att vi vill veta det är att vi vill ge höga betyg till de som vet mer eller bättre, än de som vet mindre eller sämre.

Om kunskaperna är färdigheter som förmågan att köra bil så kan man inte enbart ”mäta förmågan” med ett poängsatt, skriftligt prov utan troligen behöver man ha nåt slags praktiskt förarprov också för att få acceptans för att provet kan säga nåt om hur duglig man är som förare.

Om kunskaperna är rent teoretiska så är det lättare att tänka sig poängsatta prov kan fungera – utifrån långa traditioner i skolan om inte annat. Förmågan att lösa matematiska problem är dock nåt man kan tänkas redovisa både muntligt och skriftligt. För att få en allsidig bild av någons kunskaper i matematik behöver man ofta se en person lösa matematiska problem i lite olika situationer och under lite olika villkor.

Hur gör man då poängsatta prov i förhållanden till kunskapskrav eller olika ”curriculum demands”?

Normalt sett följer man en process som ser ut såhär:

  1. På en forskningsinstitution där man kan mycket om mätteori och kunskapsbedömning inom ett visst ämne så samlar man experter inom ett visst ämne och årskurs för att ta fram provet. Det första man tittar på är provets syfte. Det styr provets design mer än något annat.
  2. Utifrån experternas råd och med hjälp av yrkesverksamma lärare i årskursen och ämnet börjar man ta fram uppgifter som passar syftet och ämnet och elevens ålder. Man diskuterar uppgifterna och försöker ta bort konstiga uppgifter som bar brister eller är lätta att missförstå eller inte alls handlar om ämnet eller syftet med provet. De uppgifter man har kvar prövar man ut på sisådär 500 elever.
  3. När man får in utprövningsdata så kan man beräkna hur svår en uppgift är samt hur väl den diskriminerar mellan olika kunskapsnivåer. Inom klassisk testteori används oftast helt enkelt andelen rätt svar som mått på uppgifterna svårighetsgrad. Olika uppgifter sorterar olika bra mellan kunskapsnivåer (diskriminering). En uppgift som diskriminerar bra kännetecknas av att få mindre kunniga elver svarar rätt på uppgiften och många mer kunniga elever svarar rätt på uppgiften. Ett exempel kan vara att mindre kunniga elever här är elever som har kunskaper motsvarande betyget C och mer kunniga elever här motsvarande betyget A. Man kollar vilka som är svårast och man kollar att de håller ihop. Om det finns nån uppgift som både de bästa eleverna har 50/50 på och de sämsta har 50/50 på så brukar den slängas p.g.a. för dålig diskriminering. En uppgift ska hjälpa att avslöja vem som är bättre än nån annan. Det finns olika mått för att att kontrollera att uppgifterna testar ungefär samma sak, dvs att de hänger ihop, Cronbach alfa brukar användas inom klassisk testteori. Uppgifter som diskriminerar dåligt bidrar lite till att få provet att hänga ihop. Chronbachs alfa brukar sägas vara ett mått på provet reliabilitet (mätsäkerhet) och ju fler uppgifter med hygglig diskrimineringsförmåga desto högre reliabilitet.
  4. Ungefär här börjar man med möten med paneler med yrkesverksamma lärare. Här följer man ofta nån av de metoder som finns för att avgöra kvalitativa skillnader i provresultaten. Den mest populära metoden kallas Angoff-metoden. När man följer den så diskuterar man med panelen vad som menas med godtagbara kunskaper i ämnet och årskursen. Man tittar på kursplaner och krav och försöker konceptualisera den miniminivå som ska finnas i ämnet och årskursen. Efter det får varje panelmedlem skatta hur stor chans det är att en gränsfallselev skulle klara var och en av uppgifterna på provet (uttryckt som procent). Utifrån skattningarna kan man få en första bild av hur många poäng som krävs för att få ett godkänt resultat på provet. Det är den så kallade kravgränsen, för precis den elev som ska ha ett godkänt betyg som man försöker identifiera.
  5. När alla panelmedlemmar gjort sina skattningar och man räknat ut vad det skulle innebära i termer av poäng för den elev som precis ska ha ett godkänt betyg. Man får då se item p-värdena från utprövningen. Om nån vill skatta om en uppgift utifrån det så går det bra.
  6. Man räknar så ut en ny kravgräns. I det här skedet ska man enligt Gregory Cizek, ha en diskussion om kravnivån är rimlig utifrån skolsystemet och samhället. Dvs är kravgränsen hållbar? Den slutliga kravgränsen beslutas av den myndighet som har uppdraget att fastställa kravnivåer för skolväsendet.
  7. Man upprepar sedan proceduren med skattningar utifrån nästa nivå. Den första kallas ofta för basic i litteraturen och den andra nivån kallas proficient. Det kan man tänka motsvarar nivåer som E och C som provbetyg i vårt system.
  8. Det bärande i alla kravgränssättningsmetoder är att man följer en föreskriven procedur utifrån ett ramverk man har för provframtagande. Man dokumenterar också avvikelser ifrån ramverket och man utvärderar sitt arbete med hjälp av oberoende forskare så att man har en stringens i provframtagandet. I själva verket så ligger själva rättvisan i ett prov aldrig i en absolut rättvisa utan i en procedurell rättvisa. Precis som i en domstol kan man aldrig vara helt säker på att man kommer fram till sanningen med stort S, men man ska kunna vara säker på att domstolen och provet följer reglerna för avgörandet.

Så tillbaka till det här med poäng på prov. Av ovan kan man se att metoder för provframtagande följer vetenskapliga krav på öppenhet, granskning och kvalitetssäkring. Man väljer ut de uppgifter till provet som bidrar till ökad reliabilitet och innehållslig validitet. Många kan nog anklaga poängprov för bristande validitet. Men, märk väl, reliabiliteten är ett nödvändigt villkor för validiteten.

Poängsatta prov har helt en mycket högre reliabilitet än betygsbedömningar av uppsatser eller muntliga presentationer. Ska man dessutom skilja ut sex (6) olika betyg så kommer kvalitativa bedömningar att överlappa rätt kraftigt. Det visar erfarenheten från världens alla hörn. Det leder till skräpig reliabilitet och då blir ju inte provbetyget särskilt mycket att räkna med heller.

Så hur man än gör så har man ändan bak. Att man kan ha poäng på prov är däremot sant. Men man behöver ta ställning till vad poängen säger om elevens kunskaper, vilken poäng som är lite svårare att få än en annan och liknande.

Ja, herreminje. Lycka till med provkonstruktionen där ute, kära kollegor! 🙂

Lämna en kommentar

Under Bedömning, Boktips, Empiriska studier, Skola, Undervisning, Utbildning

Ikväll om nationella prov på teve!

teve

Prov som ger rättvisa betyg?

Ikväll visar Uppdrag granskning ett reportage om de nationella proven. I tidningen står det: ”Det nationella provet ska hjälpa lärare att sätta rättvisa betyg och göra betygen likvärdiga i hela landet”. Men hur är det med den saken? Gör de det? Låt oss titta lite på hur det kan se ut.

En bild som finns med i de flesta analyser av nationella prov är relationen mellan det nationella provets resultat, det så kallade provbetyget och det betyg läraren sätter. Enligt testteoretiska antaganden borde man med ett stickprov av väl valda frågor (som motsvarar de kunskaper som ska betygssättas) kunna få en bra bild av hur betygen ska fördela sig i stora populationer. I små grupper blir de statistiska osäkerheterna stora men för säg populationen ”alla elever i årskurs 9” ska sådana här prov ge en rätt bra bild.

Såhär ser en typisk avvikelse mellan prov och provbetyg ut i ämnet matematik i årskurs 9:

avvikelser-ma-2011

Vissa skolor avviker över 80% från provresultatet. Skolverket betecknar en avvikelse på cirka 40 procent som ”relativt hög” i jämförelse med riksgenomsnittet på 24 procent. Lärarna verkar inte alls göra samma bedömning av elevernas kunskaper som provet gör? Vad nu det beror på. (Kanske vet de om nåt som ett standardiserat skriftligt prov inte förmår mäta?)

När det ser som bäst ut (som nedan), i ämnet engelska, så följs prov och provbetyg åt. Men så ser det mera sällan ut i de rapporter och analyser som Skolverket ger ut, eller i den senaste utredningen av provsystemet, SOU 2016:25. (Märker ni att lärarna sätter ett lite högre betyg 1999, när provet är svårare än vanligt, och ett lite lägre betyg när provet var lättare 2003? Det vill säga: lärarnas betygssättning är jämnare än provets).

avvikelser-engelska

Är provet lika svårt varje år?

En annan intressant fråga är ju hur jämnt eller likvärdigt provet mäter kunskaperna. Låt oss titta på hur många procent av en årskull som får ett underkänt resultat på nationella provet i matematik i årskurs 9. Siffrorna har jag hämtat från SIRIS där all offentlig statistik om proven finns.

Läsår Procentandel med underkänt provresultat på nationella provet i matematik årskurs 9
2014/15 18,8
2013/14 12,5
2012/13 10,4
2011/12 17,0
2010/11 19,3

 

Det är cirka 110 000 elever som skriver provet i matte i nian. Förändringar i provresultat över tid antas, utifrån testteorin bli relativt små. På sikt borde man kunna se om kunskaperna växer eller krymper i riket. Stora mellanårsvariationer kan inte bero på något annat än det vi kan kalla ett mätfel.

Mellan läsåret 2012/13 och 2010/11 uppgår skillnaden till 9,5 procentenheter. Över 10 000 elever i differens.

Det innebär att ena året fick över tiotusen fler elever i årskurs nio tillbaka ett prov med ett underkänt resultat, än det andra året. Den skillnaden beror dock inte (rimligen) på att de kunde mindre, utan på att provet inte mäter tillförlitligt, eller så är det rentav så att provet mäter olika saker olika år?

Utifrån det ovanstående får man nästan formulera om Uppdrag gransknings underrubrik till en fråga: hjälper verkligen de nationella proven lärare att sätta rättvisa betyg och lyckas de bidra till att göra betygen likvärdiga i hela landet? En fråga som verkar kunna få ganska olika svar beroende på hur man tittar.

Friskolorna då?

I debatten sägs det ibland att friskolorna nog är mer generösa med betygen än de kommunala. Man refererar ibland till IFAU som funnit att det finns en statistiskt säkerställd skillnad mellan de skolor som har en enskild huvudman och de skolor som har en offentlig. Det stämmer, men hur stor är den skillnaden? Den illustreras i nedanstående bild.

differens-friskolor

Men skillnaden är inte iögonfallande stor om man ser det på det här sättet, eller hur? I själva verket uppgår skillnaden till en glidning på 0,035 meritpoäng. Men skillnaden är statistiskt säker. Men är den stor?

Betygsinflationen då?

Frågan om vi har en betygsinflation har diskuterats och många är nog eniga om att betygen sakta glider. Man tycks dock se att i de ämnen som har nationella prov, så har dessa ämnen en mer återhållsam betygsglidning. Se nedanstående bild, där det ser ut som att betygen glider i praktisk-estetiska ämnen, medan glidningen förmodligen är obetydlig i ämnena svenska, engelska och matematik. Skillnader i Cohens d på 0,5 brukar anses som medelstora, skillnader på 0,2 som små. Bilden är hämtad från Skolverket.

namnlost

Avslutningsvis

Ska bli intressant att se vad SVT kommer fram till. Många tycker nåt om prov, men få tittar närmre på detaljerna. Det är synd, för provkonstruktion handlar mycket om detaljer. Tanken att proven hjälper lärarna sätta rättvisa betyg tycks lite problematisk, enligt ovan. På samma sätt tycks föreställningen att friskolor myglar också lite svag. Sen verkar det finnas indikationer på att proven håller tillbaka betygsinflation, och det är ju bra. Ja, så inte vet jag. Gör din egen bedömning.

I boken ”Measuring Up – What Educational Testing Really Tells Us” skriver Daniel Koretz att provkonstruktion är lite som korvtillverkning. Ju mer man vet om det, desto mindre…

 

 

Post scriptum om Om Cohens d 

I ”Vad påverkar resultaten i svenska grundskola” (Skolverket, 2009), länkad ovan, skriver man såhär om Cohens d:

standardiserade medelvärdedifferenser, där standardiseringen görs med medeltalet av standardavvikelserna inom grupperna. Detta standard- avvikelseenhetsmått, som börjar bli alltmer allmänt accepterat (se t.ex. Hattie, 2009), betecknas ofta Cohens d eller bara d. En stor fördel med detta mått är att existerar relativt väletablerade tumregler för tolkning av storleksordningen
av d som effektmått i exempelvis experimentella studier. I sådana sammanhang räknas d-värden runt 0,20 som små, d-värden kring 0,50 som medelstora, och d-värden över 0,80 som stora. Det måste dock understrykas att tolkning av storleken av d är beroende av det fenomen som studeras (Hattie, 2009). En an- nan stor fördel med d-måttet är att vi kan göra jämförelser mellan variabler som vanligtvis inte direkt låter sig jämföras. Det är denna egenskap hos d som vi här framförallt kan dra nytta av. I detta kapitel kommer vi därför genomgående använda oss av d-måttet och i allmänhet kommer vi enbart att presentera resultaten i grafisk form.

 

 D.S.

Lämna en kommentar

Under Bedömning

Hur fel det kan bli


Prov mäter vad en elev kan. Det vet ju alla. Du fick 20 poäng och fick ett C. Logiskt. Vetenskapligt. Odiskutabelt.

Eller?

Oddsen att eleven verkligen fick 20 poäng egentligen är inte så jättebra som man skulle kunna tro.

Om vi för en stund djärvt antar att provet är relevant, representativt och att kravgränserna är riktiga så finns det ett enkelt sätt att visa hur fel (eller rätt) en enskild mätning trots allt är. 

Felet beror på SEM (Standard Error of Measurement). Om man accepterar testteorin så följer detta begrepp med. Det innebär att man har en modell för att beräkna felet i en enskild mätning.

Bilden

Titta på bilden nedan. Varje stapel visar hur många procent av testtagarna på nationellt prov i matematik B som fick en viss poäng.

Staplarna bildar en klockkurva. (Enda lustigheten är stapeln för ett poäng över godkänt som är oväntat hög: ”Oops, Lisa fick visst rätt på fråga 11, ändå” 😉)

Men om vi tittar på den gula stapeln: en elev som fått 15 poäng.

namnlost

Och om vi vill ha ett 95 procentigt konfidensintervall för den ”sanna” poängen så bör den ligga mellan 9 och 21 poäng. Illustreras i bilden med den lilla röda klockkurvan. (Bild och resonemang hämtat från SOU 2016:25).

Rätt häpnadsväckande – inte sant?

Eleven som fick 15 poäng, fick egentligen mellan 9 och 21 poäng om vi vill vara 95% säkra på vad eleven fick. (Eller såhär: 5 av 100 elever med 15 poäng har kunskaper som motsvarar en poäng lägre än 9 eller högre än 21).

Och sen blir det värre…

Tittar vi sen på forskningen om bedömning av elevuppsatser skrivna på modersmålet (och andra liknande produkter) så blir det ändå värre. 

Variabiliteten mellan olika bedömare är stor, jättestor. (Se till exempel Educational Measurement, 4 ed, Brennan (red). Som bäst kan man nog till vardags räkna med att olika bedömare är överens i lite över hälften av bedömningarna (både med sig själv och med andra). 

Och nä, forskningen har inte kunnat visa att sambedömning leder till att man blir särskilt mer överens, i varje fall inte i skarpt läge. Det är skillnad på träning och tävling.

Avslutningsvis. Det blir fel. Vi gör fel. Allihopa. Vi är del i en mänsklig verksamhet – testteorins mätningar till trots. Ödmjukande.

1 kommentar

Under Bedömning

Kritik av formativ bedömning

Science exists, moreover, only as a journey toward truth. Stifle dissent and you end that journey.

– John Polanyi, Nobelpristagare i kemi

I min värld och i min uppfattning har det här med formativ bedömning varit ganska oproblematiskt. Att ge eleverna återkoppling har alltid varit nåt jag gjort och nåt mina kollegor gjort. Jag har sett det som ett av många sätt att se eleverna och försöka påverka deras lärande i en positiv riktning – mot ökad självkänsla och ökad autonomi. För mig har det rört sig om att prata med dem om ämnen som intresserar dem och att låta dem få utlopp för egna hobbies och liknande i undervisningen. Det har också rör sig om att reagera på det de gör – d.v.s. att visa för dem att deras handlingar och tankar är viktiga för mig. Sedan har det förstås rört sig om en återkoppling kring deras kunskapsutveckling, hur de griper sig an arbetet i skolan, vad de åstadkommer och lär sig – och hur de kan komma vidare.

Det är framförallt återkoppling som det talats mycket om de senaste åren när man talat om ”formativ bedömning”. Att ge eleverna en återkoppling som relaterar till vad de åstadkommit (feedback), hur det åstadkomna förhåller sig till målen (feed-up) och vad de ska göra för att utvecklas (feed-forward). De parentetiska termerna är hämtade från Hattie & Timperly. Dylan Wiliams modell har jag refererat tidigare (är det inte mycket Vygotskij över den för övrigt?)

Återkoppling till eleven är dock bara ena sidan av formativ bedömning: att elevens lärande ger upphov till att man kan informera eleven om vad hon bör göra för att utvecklas. Den andra sidan av formativ bedömning är att elevernas lärande (bland annat deras arbetsprestationer och resultat) ger upphov till information om hur undervisningen kan anpassas, förändras och förbättras. Och läser man Hattie noga, som egentligen är ganska vag kring vad formativ bedömning är, så är det denna formativa utvärdering som är den riktigt viktiga…

John Hattie och Dylan Wiliam har alltså visat på starka korrelationer mellan formativ bedömning och lärande. Men begreppet tycks ha fått en smalare tillämpning än det begrepp som beskrivs… Och är begreppet tydligt egentligen? Det verkar ju inkludera en lång grad olika processer och några rena metoder verkar den inte erbjuda.

En mer realistisk bild av formativ bedömning börjar nu inställa sig då det börjar komma kritik av de höga effekttal som Hattie och Wiliam påstår att formativ bedömning ger. En sådan kritik finns i Invisible learnings som jag länkade till nyligen, men också i Randy Elliot Bennets Formative Assessment: a critical review, publicerad i Assessment in Education: Principles, Policy & Practice.

Bennet skriver att formativ bedömning som fenomen lider av flera problem som måste åtgärdas och pekar på områden som bör utvecklas för att metodernas fulla potential ska kunna realiseras.

Bennet hävdar bland annat att:

  1. Begreppet formativ bedömning saknar en fungerande definition. Väldigt många olika metoder och tillvägagångssätt ryms i begreppet.
  2. Man har inte vägt in hur ett visst ämne kan använda formativ bedömning utan utgått från allmängiltiga principer för återkoppling och det finns de som menar att vad som utgör meningsfull återkoppling är ämnes- eller områdesberoende. Detta har inte hanterats i tillräckligt stor utsträckning.
  3. Svag mätsäkerhet i de effektstudier som gjorts.
  4. Den tidsåtgång som tillvägagångssättet genererar har inte vägts in då man värderat formativ bedömning. Det tar tidför läraren att bli förtrogen med de metoder som formativ bedömning kräver och den ämnesanalys som återkopplingen kräver.
  5. Och även om det finns befogat stöd för att formativ bedömning ger gynnsamma effekter på lärandet så är fenomenet för odefinierat och obeforskat för att man enkelt ska kunna säga att alla de metoder som kallas formativ bedömning har gynnsamma effekter.
  6. Dessutom är de stora effektnivåerna (som formativ bedömning påstås ha) suspekta givet de brister som man kan finna i den underliggande vetenskapliga bevisningen.
  7. För att formativ bedömning ska leverera gynnsamma resultat tarvas forskning om ämnesspecifik formativ bedömning.
  8. och så vidare

Om formativ bedömning (eller andra pedagogiska idéer, för övrigt) ska kunna utvecklas till redskap som får genomgripande effekter i skolan behöver de prövas, diskuteras och beforskas. Diskussionen om de pedagogiska rönen måste hållas öppen och bra tillämpningar av formativ bedömning måste skiljas från de dåliga.

Kanske kan inte vetenskapen heller ge oss färdiga verktyg, utan snarare idéer och koncept som kan inspirera oss i skolan att pröva nytt eller att försöka utveckla vår praktik?

1 kommentar

Under Bedömning, Debatt, Empiriska studier, Lärande, Teoribildning, Undervisning