Kategoriarkiv: Bedömning

Ordet som försvann

Ingenstans i läroplanerna står det att undervisningen ska vara relevant. Ordet finns för all del med på sina ställen i kursplanernas kunskapskrav. Lite drygt 60 gånger nämns ordet i kunskapskraven:

Eleven väljer texter och talat språk från olika medier och använder på ett relevant, effektivt och kritiskt sätt det valda materialet i sin egen produktion och interaktion

Eleverna ska kunna visa relevant kunskap. Men undervisningen behöver inte följa detta krav. Nä, ingenstans står det att undervisningen ska vara relevant.

Är inte det lite märkligt? Särskilt med tanke på att en av de vanligaste frågor ungdomar har kring det de ska lära sig handlar om vad det är till för: ”varför ska jag lära mig det här?”

Jag har tillbringat de senaste 25 åren i skolvärlden, på ett eller annat sätt. Om jag ska spetsa till det har jag på den tiden lärt mig två saker. Den första är att den goda viljan är väldigt viktig, att som lärare behöver man vilja det bästa för sina elever. Man behöver gilla dem. Vilja dem väl. Den andra är att eleven behöver uppfatta lärandet som relevant, de behöver känna att det är intressant, värt att veta och att det som händer i skolan relaterar till dem, som individer (och människor).

Begreppet relevant är kanske lite förföriskt? Och samtidigt undanglidande? Men jag tänker först på Rousseau, som låter Émile få olika inbjudningar i korta brev. Émile lyckas inte läsa dem och när han sedan får dem lästa för sig inser han att han missat ett kalas eller en spännande utflykt. Är det relevans? Att man missar nåt om man inte lär sig? Är relevant samma som nyttigt?

Inte riktigt. Relevans handlar om att väcka intresse. Så det är vanligt att börja en lektion med en lek, ett spel, eller en film med nåt spektakulärt eller lustigt. Men har man bara det så blir undervisningen ett jippo eller nån slags tiktok-video. Det krävs nåt som skapar en uthållig vilja att arbeta. Och då behöver undervisningen handla om nåt som är värt att veta, värt att kunna. Lite som Émile. Att lära för man tjänar på det. Men inte bara nyttiga saker är värda att veta. Värt att veta är också sånt som relaterar till en själv. Det som blir en del av mig är viktigt. Men vad innebär då det?

Jag tror två villkor behöver vara uppfyllda för att något ska relatera till en själv.

1. När nåt relaterar till en själv så är jaget med i ekvationen. Det vill säga att det jag gör som elev har betydelse. Det jag säger, gör, skriver, osv. betyder nåt för människor i min omgivning: mina kamrater och min lärare.

2. När nåt relaterar till en själv så är frågan vi ska lära oss om angelägen utifrån min livsvärld. Det handlar om nåt jag undrar över. Det kan vara varför jag finns, varför det är svårt att älska, eller hur kan jag förstå mig själv, eller allt som händer i världen. Eller varför inte: var kommer vi ifrån? Var tar vi vägen?

Jag blev påmind om hur viktiga djupt kända frågor är när jag härom kvällen såg en intervju med Carl Sagan. Han sa: ”The thing I find most striking is the enormous, remarkable ability of virtually every small child for learning. They start out eager, intellectually wide-eyed, asking extremely clever questions about the world. But then something happens, by and large, to discourage them.”

Och när jag läser Dragons of Eden tycker jag mig möta en person som aldrig blev stukad av sin omgivning, ett barn som fick uppmuntran. Carl Sagan växte inte upp och la frågorna åt sidan. Utan han förmår som vuxen att nyfiket ställa dem igen, söka svaren och sprida intresset vidare. Som när han beskriver universums historia i relation till ett kalenderår. Hur ska jag kunna begripa hur gammalt universum är? Hur lång tid är egentligen 13,8 miljarder år? Kanske förstår jag bättre om jag jämför med nåt jag känner till, ett vanligt år?:

När jag läser sidorna ovan, inser jag att saker som jag inte vet är relevanta för mig: de kan göras relevanta för mig. Jag inser att att den här kunskapen är värd att känna till (att den rentav är fascinerande), trots att jag själv inte visste om att den var värdefull, förrän jag fick reda på den. Det vi kan lära oss av det här exemplet är att de frågor som läraren har kan göras relevanta för eleverna. Det går att gestalta, levandegöra och det går att förklara varför ett kunskapsområde är angeläget.  Varför man ska bry sig om just de här frågorna.

Men trots att Sagan är medryckande och fascinerande så är han kanske inte allas kopp te? Jag tror förstås de frågor han ställer är allmängiltiga och sättet han ställer dem tror jag väcker insikten att de är värda att ställa (helt utan att vara särskilt nyttiga). Men. Är man som lärare inte beredd på att ha fel, beredd på att fundera över och lyssna på vad eleverna är nyfikna på, idag, på att prata med dem om svaren på frågor som de ställer så riskerar man mycket. Kanske riskerar man att de helt tappar sugen?

Att undervisa om svaren på frågor som eleverna inte ställer och kan relatera till är fåfängt. När elever tvingas lära nåt de inte är intresserade av så kan de kanske i vissa fall fås att lyda med krav, påtryckningar och betyg. Men vissa berörs inte av kursplanernas krav, skolbokens givna kunskaper och en lektion som mamma och pappa säger är nyttig: de undrar över nåt annat. Då är det lätt de halkar efter och att man i skolan förstår att de behöver stöd. Hur ska man då göra?

Man skulle kunna tro att svaren på den frågan fanns i skollagen. Där ska väl elevens rätt försvaras? I bestämmelserna och i deras förarbeten talas det mycket riktigt om rätten till stöd. Men när man nyfiket läser vidare så får man reda på att stöd i normalfallet ska ske i form av ”extra anpassningar” av undervisningen. Och att med det menas saker som att få ett särskilt schema för dagen, extra tydliga instruktioner, stöd att sätta igång arbetet och mattestugor (Prop. 2013/14:160, s. 21). Det är så man som lärare ska anpassa undervisningen om eleven kört fast. Det är förstås inget fel med de åtgärderna. Men är det verkligen där skon klämmer?

Det skrämmande är, för mig, att man inte ens nämner att eleven kanske sitter på svaren kring vad som behöver göras. Att: ”ja jovisst jag behöver hjälp med ett särskilt schema, men det hade ju varit bra om innehållet kändes viktigt. Hade underlättat, mer”. Om läraren inte är beredd på att eleven ibland kör fast just, för att hen inte förstår vad som är meningen med det vi gör i skolan är risken att de extra tydliga instruktionerna bara ”extra tydligt” beskriver något som eleven inte uppfattar som relevant.

Relevans är, av allt att döma, ett ord som försvunnit ur läroplanerna och bestämmelserna. Kanske är det inte så konstigt med tanke på att målen som eleven ska uppnå är satta av nån långt bort. De är inte förhandlingsbara och ”ska uppnås”. Det är tydligen viktigare att kraven på eleverna ska vara likvärdiga än att de ska vara meningsfulla för eleverna.

Att eleverna är människor och att människor behöver mening är kanske inget man tänker på längre? Så när man läser regelverket kring hur man ska stödja de elever som halkat efter så kanske man inte ska bli så förvånad som jag blir. När undervisningen ska anpassas till dig som elev så är åtgärden, för all del, en teknisk förbättring. Men frågan om vad som kan få dig som elev att känna dig delaktig, vad som betyder nåt för dig. Den ställs inte.

 

Lämna en kommentar

Under Bedömning, Debatt, Kritik, Meta, Motivation, Spekulativ, Undervisning, Utbildning

Kartan eller terrängen?

En av de mer spridda begreppen i de rådande läroplanerna är ”progression”. Det har talats om progressionsuttryck och om att läroplanen, det centrala innehållet och särskilt kunskapskraven ”har en tydlig progression” mycket sedan 2010. Att man genom sin skolgång ska ha en progression i skolan förefaller förstås självklart. Men hur en sådan progression kan beskrivas och bedömas är inte alls lika lätt att bli överens om. Det kan till och med ifrågasättas om det ens är fruktbart att försöka få syn på denna kunskapsprogression.

På det senaste har nämligen begreppet progression, eller learning progression (Lp) som det kallas på engelska fått tåla en tämligen rejäl sågning i Storbritannien: ”the findings we have presented suggest that the theory of learning that is inherent to the Lp approach is unhelpfully simplistic.”, skriver Tom Gallacher and Martin Johnson i det senaste numret av forskningsstidsskriften Research Matters, som ges ut av internationellt erkända Cambridge Assessment.

I Sverige verkar begreppet ännu fått liten kritik, eller så har kritiken eller problematiseringen fört en rätt undanskymd tillvaro. Man kan emellertid hitta texter som problematiserar begreppet. Ann-Marie Körling, rikskänd lärare, skriver i sin blogg redan 2011 om progression: ”Det centrala innehållet i årskurs 4-6 kring att skriva är att skriva och disponera sin text samt redigera dem (Lgr 11 s. 224). Det betyder alltså att skriva för hand och för dator får en utveckling mot att också inbegripa disposition och redigering. Vilket givetvis kan undervisas om under hela skolgången, redan tidigare om man så önskar.” Körling tycks märka att det inte finns någon särskild anledning att börja med det här centrala innehållet först i årskurs 4-6. I själva verket kan man börja med det tidigare ”om man så önskar”.

Skolverket själva vidgår lite av problemen med progression i ett av sina kommentarmaterial och skriver: ”När läraren eller lärarlaget ger sig i kast med uppgiften att i praktiken hitta en lämplig progression genom innehållet är det inte så lätt. Progression är i sig ett komplext begrepp, och det är ofta långt ifrån enkelt att anvisa en progression av ett innehåll som underlättar lärandet, särskilt inte om den ska passa alla”. Nedan en tabell från sagda kommentarmaterial och på samma sätt som i Körlings resonemang förefaller det inte som direkt orimligt att innehållet för årskurs 4-6 skulle kunna dyka upp redan 1-3. Se bilden nedan.

Progressionen i kunskapskraven

En annan Skolverkstext som problematiserar föreställningen om en rak lärandeprogression finns i bedömningsstödet för Bild för årskurs 9. Där framskymtar en helt annan föreställning om lärandets utveckling än den trappstegsmodell vi får i centrala innehållet och kunskapskraven: ” lärande i praktiken har sällan en så enkel och linjär struktur. Lärandet kan snarare beskrivas som en zick-zackrörelse. Lars Lindström liknar den här ibland cirkulära eller slumpmässiga processen vid den gamla visan om prästens lilla kråka” (dvs, än slank han hit, än slank han dit). (Professor Lars Lindström var en pionjär inom pedagogisk bedömning, inom bildämnet.)

Det verkar, detta till trots, förhålla sig så att kunskapskraven ska förstås som att de har en rak progression. Bestämmelserna för betygsskalan lyder: ”Kraven för betygen A, C och E ska precisera vilka kunskaper som krävs för respektive betyg. Kunskapskravet för betyget D innebär att kraven för E och till övervägande del för C är uppfyllda. Kravet för betyget B innebär att även kraven för C och till övervägande del för A är uppfyllda.” För att få betyget E behöver du uppfylla allt av vad som framgår av kunskapskravet för E. För att få C behöver du ha uppfyllt kraven för C, som antas ligga på en annan kvalitativ nivå ( ”Läraren i exemplet går först igenom sin sammanfattande dokumentation och analyserar och värderar vilken kvalitet en elev visat på sitt kunnande i förhållande till en del av kunskapskraven”, skriver Skolverket i sitt stödmaterial om betygsskalan). Betygsskalan bygger alltså på metaforer som nivå eller trappsteg, om ger uttryck för skillnader i kvalitet. Man kan också höra lärare säga: ”Du är på nivå E och för att nå nivå C behöver du lära dig…”. Ett tydligt kvitto på att metaforen om kunskaper som en trappa, nivåer eller en stege slagit rot i fältet.

Den här typen av metaforer och sätt att tänka kan dock visa sig vanskligt när elevernas faktiska kunskaper ska bedömas. Låt oss ta ett exempel… Man skulle kunna tänka sig att bråktalen i matematik ska förstås relativt tidigt. I läroplanen nämns också bråk redan i målen för årskurs 3. Men att förstå vad bråk är visar sig svårare än man kan tro, i verkligheten. Framförallt är det påtagligt svårt att se när man begripit bråk, rent principiellt. Dels varierar elevernas förståelse beroende på hur olika problem och uppgifter ser ut, dels varierar de utifrån hur kunskaperna prövas – man får skillnader i utfallet om kunskaperna prövas med ett skriftligt prov eller i en muntlig intervju, exempelvis. Gallacher och Johnson skriver:

the idea that progression through levels can be reliably assessed is a simplification since learners can inconsistently demonstrate a range of abilities that do not support a hierarchy based solely on conceptual difficulty. Hart (1981), as cited in Simons and porter (2015), shows examples of students who can demonstrate an ability when asked one way, but not another. For example, in the case of the conceptual difficulty of “knowledge of fractions”, 90 per cent of students can respond that 5/7 is greater than 3/7, but only 15 per cent can respond that 5/7 is greater than 5/9. this difference exists despite the assumed conceptual commonality of denominator and numerator knowledge that underpins fraction knowledge. Differences have also been found between students’ performances on the same skills depending on whether they were assessed by a class test or by an individual interview (Denvir & Brown, 1987, p.106).

Så att döma av forskarnas uppfattning så är kunskapsutveckling något multidimensionellt och inte alls linjärt och trappstegsliknande som betygsskalan och kunskapskraven tycks säga oss. Istället kan troligen eleven saker på olika nivåer i den hierarki vi konstruerat. Och eleven kan också ha motsägelsefulla eller brokiga kunskaper från ett par olika nivåer samtidigt. Bedömningarnas tillförlitlighet är dessutom såpass vacklande att även de ger mixade bilder av vad eleven kan. Vi kan av exemplet ovan förstå att en elev kan förstå principerna för bråkräkning (exempelvis) i delar, men inte i andra. En praktisk slutsats för lärare (från detta) blir troligen att vara mer uppmärksam på motsägelsefullheter i elevernas visade kunskap – för att kunna ge mer ändamålsenlig återkoppling. (Ironiskt nog kritiserar många nationella proven i engelska eftersom de har flera delprov som kan visa på olika kompetensnivå i ämnets olika delar. Dessa brokiga prestationer i ämnets olika delar kompenseras sedan till ett provbetyg. Det är förstås ett tillvägagångssätt som är mer passande i förhållande till hur elevernas kunskaper i ämnet egentligen ser ut, men som vid ytlig betraktelse inte alls verkar stämma med bestämmelserna för betygsskalan.)

Tom Gallacher and Martin Johnson skriver ”teaching and assessment need multiple dimensions to understand variance in performance rather than the unidimensional ladder analogy. Feedback which reflects a learner’s inconsistencies would arguably be more useful for planning future educational activities required by educators.”

Avslutningsvis. Det tycks som vi hamnat i en ”kartan eller terrängen”-konflikt i skolväsendet, när det gäller progression. Kunskaperna ska bedömas utifrån kunskapskraven och inte sällan används de som utgångspunkt för feedback. Progressionen (och kunskapernas beskrivning i stort) är dock för grovhuggen i förhållande till den komplexitet och variation man kan se i en elevs kunskaper. I värsta fall misstar vi kartan för terrängen? För elevens del blir troligen feedbacken mer hjälpsam – och betyget mer rättvist – om lärarna utgår från det de ser, snarare än det de borde se.

Lämna en kommentar

Under Bedömning, Debatt, Empiriska studier, Skola, Teoribildning, Undervisning, Utbildning

Poäng på prov?

9781412916820_200x_standard-setting

En sak man ofta hör från lärare är att man inte kan ha prov med poäng på. Är det så? Låt mig försöka svara på ett så lekmannamässigt sätt som jag nu kan. Svaret utgår från boken Standard setting (2007) av Gregory Cizek. Har den som pdf men vågar inte dela den här. Kan dock dela min powerpoint på boken från när jag redovisade den på Skolverket, 2010.

För att svara på frågan behöver vi backa till vad vi egentligen vill veta. Alltsomoftast vill vi veta vad andra vet. Anledningen till att vi vill veta det är att vi vill ge höga betyg till de som vet mer eller bättre, än de som vet mindre eller sämre.

Om kunskaperna är färdigheter som förmågan att köra bil så kan man inte enbart ”mäta förmågan” med ett poängsatt, skriftligt prov utan troligen behöver man ha nåt slags praktiskt förarprov också för att få acceptans för att provet kan säga nåt om hur duglig man är som förare.

Om kunskaperna är rent teoretiska så är det lättare att tänka sig poängsatta prov kan fungera – utifrån långa traditioner i skolan om inte annat. Förmågan att lösa matematiska problem är dock nåt man kan tänkas redovisa både muntligt och skriftligt. För att få en allsidig bild av någons kunskaper i matematik behöver man ofta se en person lösa matematiska problem i lite olika situationer och under lite olika villkor.

Hur gör man då poängsatta prov i förhållanden till kunskapskrav eller olika ”curriculum demands”?

Normalt sett följer man en process som ser ut såhär:

  1. På en forskningsinstitution där man kan mycket om mätteori och kunskapsbedömning inom ett visst ämne så samlar man experter inom ett visst ämne och årskurs för att ta fram provet. Det första man tittar på är provets syfte. Det styr provets design mer än något annat.
  2. Utifrån experternas råd och med hjälp av yrkesverksamma lärare i årskursen och ämnet börjar man ta fram uppgifter som passar syftet och ämnet och elevens ålder. Man diskuterar uppgifterna och försöker ta bort konstiga uppgifter som har brister eller är lätta att missförstå eller inte alls handlar om ämnet eller syftet med provet. De uppgifter man har kvar prövar man ut på sisådär 500 elever.
  3. När man får in utprövningsdata så kan man beräkna hur svår en uppgift är samt hur väl den diskriminerar mellan olika kunskapsnivåer. Inom klassisk testteori används oftast helt enkelt andelen rätt svar som mått på uppgifterna svårighetsgrad. Olika uppgifter sorterar olika bra mellan kunskaper (diskriminering). En uppgift som diskriminerar bra kännetecknas av att få mindre kunniga elver svarar rätt på uppgiften och många mer kunniga elever svarar rätt på uppgiften. Man kollar sen vilka uppgifter som är svårast och man kollar att de håller ihop. Dvs om det finns nån uppgift som både de bästa eleverna har 50/50 på och de sämsta har 50/50 på så brukar den slängas p.g.a. för dålig diskriminering. En uppgift ska hjälpa att avslöja vem som är bättre än nån annan. Det finns olika mått för att att kontrollera att uppgifterna testar ungefär samma sak, dvs att de hänger ihop, Cronbach alfa brukar användas inom klassisk testteori. Uppgifter som diskriminerar dåligt bidrar lite till att få provet att hänga ihop. Chronbachs alfa brukar sägas vara ett mått på provet reliabilitet (mätsäkerhet) och ju fler uppgifter med hygglig diskrimineringsförmåga desto högre reliabilitet.
  4. Ungefär här börjar man med möten med paneler med yrkesverksamma lärare. Här följer man ofta nån av de metoder som finns för att avgöra kvalitativa skillnader i provresultaten. Den mest populära metoden kallas Angoff-metoden. När man följer den så diskuterar man med panelen vad som menas med godtagbara kunskaper i ämnet och årskursen. Man tittar på kursplaner och krav och försöker konceptualisera den miniminivå som ska finnas i ämnet och årskursen. Efter det får varje panelmedlem skatta hur stor chans det är att en gränsfallselev skulle klara var och en av uppgifterna på provet (uttryckt som procent). Utifrån skattningarna kan man få en första bild av hur många poäng som krävs för att få ett godkänt resultat på provet. Det är den så kallade kravgränsen, för precis den elev som ska ha ett godkänt betyg som man försöker identifiera.
  5. När alla panelmedlemmar gjort sina skattningar och man räknat ut vad det skulle innebära i termer av poäng för den elev som precis ska ha ett godkänt betyg. Man får då se item p-värdena från utprövningen. Om nån vill skatta om en uppgift utifrån det så går det bra i denna andra omgång.
  6. Man räknar så ut en ny kravgräns. I det här skedet ska man enligt Gregory Cizek, ha en tredje omgång med diskussion om kravnivån är rimlig utifrån skolsystemet och samhället. Dvs är kravgränsen hållbar? Den slutliga kravgränsen beslutas av den myndighet som har uppdraget att fastställa kravnivåer för skolväsendet.
  7. Man upprepar sedan proceduren med skattningar utifrån nästa nivå. Den första kallas ofta för basic i litteraturen och den andra nivån kallas proficient. Det kan man tänka motsvarar nivåer som E och C som provbetyg i vårt system.
  8. Det bärande i alla kravgränssättningsmetoder är att man ska följa en föreskriven procedur utifrån ett ramverk man har för provframtagande. Man ska dokumentera avvikelser ifrån ramverket och man ska utvärdera sitt arbete med hjälp av oberoende forskare så att man har en stringens i provframtagandet. I själva verket så ligger själva rättvisan i ett prov aldrig i en absolut rättvisa utan i en procedurell rättvisa och transparens. Precis som i en domstol kan man aldrig vara helt säker på att man kommer fram till sanningen med stort S, men man ska kunna vara säker på att domstolen och provet följer reglerna för avgörandet.

Så tillbaka till det här med poäng på prov. Av ovan kan man se att metoder för provframtagande ska följa vetenskapliga krav på öppenhet, granskning och kvalitetssäkring. Man väljer ut de uppgifter till provet som bidrar till ökad reliabilitet och innehållslig validitet. Många kan nog anklaga poängprov för bristande validitet och kravgränserna är förvisso godtyckliga (arbitrary) och följer ingen naturgiven hierarki.

Fördelen med poängsatta prov är att de normalt sett har en mycket högre reliabilitet än betygsbedömningar av uppsatser eller muntliga presentationer. Men ju fler kravgränser provet har desto längre måste provet bli, eftersom varje kravgräns har ett fel.

Så hur man än gör så har man ändan bak. Att man kan ha poäng på prov är däremot sant. Men man behöver ta ställning till vad poängen säger om elevens kunskaper, vilken poäng som är lite svårare att få än en annan och liknande.

Ja, herreminje. Lycka till med provkonstruktionen där ute, kära kollegor! 🙂

Lämna en kommentar

Under Bedömning, Boktips, Empiriska studier, Skola, Undervisning, Utbildning

Ikväll om nationella prov på teve!

teve

Prov som ger rättvisa betyg?

Ikväll visar Uppdrag granskning ett reportage om de nationella proven. I tidningen står det: ”Det nationella provet ska hjälpa lärare att sätta rättvisa betyg och göra betygen likvärdiga i hela landet”. Men hur är det med den saken? Gör de det? Låt oss titta lite på hur det kan se ut.

En bild som finns med i de flesta analyser av nationella prov är relationen mellan det nationella provets resultat, det så kallade provbetyget och det betyg läraren sätter. Enligt testteoretiska antaganden borde man med ett stickprov av väl valda frågor (som motsvarar de kunskaper som ska betygssättas) kunna få en bra bild av hur betygen ska fördela sig i stora populationer. I små grupper blir de statistiska osäkerheterna stora men för säg populationen ”alla elever i årskurs 9” ska sådana här prov ge en rätt bra bild.

Såhär ser en typisk avvikelse mellan prov och provbetyg ut i ämnet matematik i årskurs 9:

avvikelser-ma-2011

Vissa skolor avviker över 80% från provresultatet. Skolverket betecknar en avvikelse på cirka 40 procent som ”relativt hög” i jämförelse med riksgenomsnittet på 24 procent. Lärarna verkar inte alls göra samma bedömning av elevernas kunskaper som provet gör? Vad nu det beror på. (Kanske vet de om nåt som ett standardiserat skriftligt prov inte förmår mäta?)

När det ser som bäst ut (som nedan), i ämnet engelska, så följs prov och provbetyg åt. Men så ser det mera sällan ut i de rapporter och analyser som Skolverket ger ut, eller i den senaste utredningen av provsystemet, SOU 2016:25. (Märker ni att lärarna sätter ett lite högre betyg 1999, när provet är svårare än vanligt, och ett lite lägre betyg när provet var lättare 2003? Det vill säga: lärarnas betygssättning är jämnare än provets).

avvikelser-engelska

Är provet lika svårt varje år?

En annan intressant fråga är ju hur jämnt eller likvärdigt provet mäter kunskaperna. Låt oss titta på hur många procent av en årskull som får ett underkänt resultat på nationella provet i matematik i årskurs 9. Siffrorna har jag hämtat från SIRIS där all offentlig statistik om proven finns.

Läsår Procentandel med underkänt provresultat på nationella provet i matematik årskurs 9
2014/15 18,8
2013/14 12,5
2012/13 10,4
2011/12 17,0
2010/11 19,3

 

Det är cirka 110 000 elever som skriver provet i matte i nian. Förändringar i provresultat över tid antas, utifrån testteorin bli relativt små. På sikt borde man kunna se om kunskaperna växer eller krymper i riket. Stora mellanårsvariationer kan inte bero på något annat än det vi kan kalla ett mätfel.

Mellan läsåret 2012/13 och 2010/11 uppgår skillnaden till 9,5 procentenheter. Över 10 000 elever i differens.

Det innebär att ena året fick över tiotusen fler elever i årskurs nio tillbaka ett prov med ett underkänt resultat, än det andra året. Den skillnaden beror dock inte (rimligen) på att de kunde mindre, utan på att provet inte mäter tillförlitligt, eller så är det rentav så att provet mäter olika saker olika år?

Utifrån det ovanstående får man nästan formulera om Uppdrag gransknings underrubrik till en fråga: hjälper verkligen de nationella proven lärare att sätta rättvisa betyg och lyckas de bidra till att göra betygen likvärdiga i hela landet? En fråga som verkar kunna få ganska olika svar beroende på hur man tittar.

Friskolorna då?

I debatten sägs det ibland att friskolorna nog är mer generösa med betygen än de kommunala. Man refererar ibland till IFAU som funnit att det finns en statistiskt säkerställd skillnad mellan de skolor som har en enskild huvudman och de skolor som har en offentlig. Det stämmer, men hur stor är den skillnaden? Den illustreras i nedanstående bild.

differens-friskolor

Men skillnaden är inte iögonfallande stor om man ser det på det här sättet, eller hur? I själva verket uppgår skillnaden till en glidning på 0,035 meritpoäng. Men skillnaden är statistiskt säker. Men är den stor?

Betygsinflationen då?

Frågan om vi har en betygsinflation har diskuterats och många är nog eniga om att betygen sakta glider. Man tycks dock se att i de ämnen som har nationella prov, så har dessa ämnen en mer återhållsam betygsglidning. Se nedanstående bild, där det ser ut som att betygen glider i praktisk-estetiska ämnen, medan glidningen förmodligen är obetydlig i ämnena svenska, engelska och matematik. Skillnader i Cohens d på 0,5 brukar anses som medelstora, skillnader på 0,2 som små. Bilden är hämtad från Skolverket.

namnlost

Avslutningsvis

Ska bli intressant att se vad SVT kommer fram till. Många tycker nåt om prov, men få tittar närmre på detaljerna. Det är synd, för provkonstruktion handlar mycket om detaljer. Tanken att proven hjälper lärarna sätta rättvisa betyg tycks lite problematisk, enligt ovan. På samma sätt tycks föreställningen att friskolor myglar också lite svag. Sen verkar det finnas indikationer på att proven håller tillbaka betygsinflation, och det är ju bra. Ja, så inte vet jag. Gör din egen bedömning.

I boken ”Measuring Up – What Educational Testing Really Tells Us” skriver Daniel Koretz att provkonstruktion är lite som korvtillverkning. Ju mer man vet om det, desto mindre…

 

 

Post scriptum om Om Cohens d 

I ”Vad påverkar resultaten i svenska grundskola” (Skolverket, 2009), länkad ovan, skriver man såhär om Cohens d:

standardiserade medelvärdedifferenser, där standardiseringen görs med medeltalet av standardavvikelserna inom grupperna. Detta standard- avvikelseenhetsmått, som börjar bli alltmer allmänt accepterat (se t.ex. Hattie, 2009), betecknas ofta Cohens d eller bara d. En stor fördel med detta mått är att existerar relativt väletablerade tumregler för tolkning av storleksordningen
av d som effektmått i exempelvis experimentella studier. I sådana sammanhang räknas d-värden runt 0,20 som små, d-värden kring 0,50 som medelstora, och d-värden över 0,80 som stora. Det måste dock understrykas att tolkning av storleken av d är beroende av det fenomen som studeras (Hattie, 2009). En an- nan stor fördel med d-måttet är att vi kan göra jämförelser mellan variabler som vanligtvis inte direkt låter sig jämföras. Det är denna egenskap hos d som vi här framförallt kan dra nytta av. I detta kapitel kommer vi därför genomgående använda oss av d-måttet och i allmänhet kommer vi enbart att presentera resultaten i grafisk form.

 

 D.S.

Lämna en kommentar

Under Bedömning

Hur fel det kan bli


Prov mäter vad en elev kan. Det vet ju alla. Du fick 20 poäng och fick ett C. Logiskt. Vetenskapligt. Odiskutabelt.

Eller?

Oddsen att eleven verkligen fick 20 poäng egentligen är inte så jättebra som man skulle kunna tro.

Om vi för en stund djärvt antar att provet är relevant, representativt och att kravgränserna är riktiga så finns det ett enkelt sätt att visa hur fel (eller rätt) en enskild mätning trots allt är. 

Felet beror på SEM (Standard Error of Measurement). Om man accepterar testteorin så följer detta begrepp med. Det innebär att man har en modell för att beräkna felet i en enskild mätning.

Bilden

Titta på bilden nedan. Varje stapel visar hur många procent av testtagarna på nationellt prov i matematik B som fick en viss poäng.

Staplarna bildar en klockkurva. (Enda lustigheten är stapeln för ett poäng över godkänt som är oväntat hög: ”Oops, Lisa fick visst rätt på fråga 11, ändå” 😉)

Men om vi tittar på den gula stapeln: en elev som fått 15 poäng.

namnlost

Och om vi vill ha ett 95 procentigt konfidensintervall för den ”sanna” poängen så bör den ligga mellan 9 och 21 poäng. Illustreras i bilden med den lilla röda klockkurvan. (Bild och resonemang hämtat från SOU 2016:25).

Rätt häpnadsväckande – inte sant?

Eleven som fick 15 poäng, fick egentligen mellan 9 och 21 poäng om vi vill vara 95% säkra på vad eleven fick. (Eller såhär: 5 av 100 elever med 15 poäng har kunskaper som motsvarar en poäng lägre än 9 eller högre än 21).

Och sen blir det värre…

Tittar vi sen på forskningen om bedömning av elevuppsatser skrivna på modersmålet (och andra liknande produkter) så blir det ändå värre. 

Variabiliteten mellan olika bedömare är stor, jättestor. (Se till exempel Educational Measurement, 4 ed, Brennan (red). Som bäst kan man nog till vardags räkna med att olika bedömare är överens i lite över hälften av bedömningarna (både med sig själv och med andra). 

Och nä, forskningen har inte kunnat visa att sambedömning leder till att man blir särskilt mer överens, i varje fall inte i skarpt läge. Det är skillnad på träning och tävling.

Avslutningsvis. Det blir fel. Vi gör fel. Allihopa. Vi är del i en mänsklig verksamhet – testteorins mätningar till trots. Ödmjukande.

1 kommentar

Under Bedömning

Kritik av formativ bedömning

Science exists, moreover, only as a journey toward truth. Stifle dissent and you end that journey.

– John Polanyi, Nobelpristagare i kemi

I min värld och i min uppfattning har det här med formativ bedömning varit ganska oproblematiskt. Att ge eleverna återkoppling har alltid varit nåt jag gjort och nåt mina kollegor gjort. Jag har sett det som ett av många sätt att se eleverna och försöka påverka deras lärande i en positiv riktning – mot ökad självkänsla och ökad autonomi. För mig har det rört sig om att prata med dem om ämnen som intresserar dem och att låta dem få utlopp för egna hobbies och liknande i undervisningen. Det har också rört sig om att reagera på det de gör – d.v.s. att visa för dem att deras handlingar och tankar är viktiga för mig. Sedan har det förstås rört sig om en återkoppling kring deras kunskapsutveckling, hur de griper sig an arbetet i skolan, vad de åstadkommer och lär sig – och hur de kan komma vidare.

Det är framförallt återkoppling som det talats mycket om de senaste åren när man talat om ”formativ bedömning”. Att ge eleverna en återkoppling som relaterar till vad de åstadkommit (feedback), hur det åstadkomna förhåller sig till målen (feed-up) och vad de ska göra för att utvecklas (feed-forward). De parentetiska termerna är hämtade från Hattie & Timperly. Dylan Wiliams modell har jag refererat tidigare (är det inte mycket Vygotskij över den för övrigt?)

Återkoppling till eleven är dock bara ena sidan av formativ bedömning: att elevens lärande ger upphov till att man kan informera eleven om vad hon bör göra för att utvecklas. Den andra sidan av formativ bedömning är att elevernas lärande (bland annat deras arbetsprestationer och resultat) ger upphov till information om hur undervisningen kan anpassas, förändras och förbättras. Och läser man Hattie noga, som egentligen är ganska vag kring vad formativ bedömning är, så är det denna formativa utvärdering som är den riktigt viktiga…

John Hattie och Dylan Wiliam har alltså visat på starka korrelationer mellan formativ bedömning och lärande. Men begreppet tycks ha fått en smalare tillämpning än det begrepp som beskrivs… Och är begreppet tydligt egentligen? Det verkar ju inkludera en lång grad olika processer och några rena metoder verkar den inte erbjuda.

En mer realistisk bild av formativ bedömning börjar nu inställa sig då det börjar komma kritik av de höga effekttal som Hattie och Wiliam påstår att formativ bedömning ger. En sådan kritik finns i Invisible learnings som jag länkade till nyligen, men också i Randy Elliot Bennets Formative Assessment: a critical review, publicerad i Assessment in Education: Principles, Policy & Practice.

Bennet skriver att formativ bedömning som fenomen lider av flera problem som måste åtgärdas och pekar på områden som bör utvecklas för att metodernas fulla potential ska kunna realiseras.

Bennet hävdar bland annat att:

  1. Begreppet formativ bedömning saknar en fungerande definition. Väldigt många olika metoder och tillvägagångssätt ryms i begreppet.
  2. Man har inte vägt in hur ett visst ämne kan använda formativ bedömning utan utgått från allmängiltiga principer för återkoppling och det finns de som menar att vad som utgör meningsfull återkoppling är ämnes- eller områdesberoende. Detta har inte hanterats i tillräckligt stor utsträckning.
  3. Svag mätsäkerhet i de effektstudier som gjorts.
  4. Den tidsåtgång som tillvägagångssättet genererar har inte vägts in då man värderat formativ bedömning. Det tar tid för läraren att bli förtrogen med de metoder som formativ bedömning kräver och den ämnesanalys som återkopplingen kräver.
  5. Och även om det finns befogat stöd för att formativ bedömning ger gynnsamma effekter på lärandet så är fenomenet för odefinierat och obeforskat för att man enkelt ska kunna säga att alla de metoder som kallas formativ bedömning har gynnsamma effekter.
  6. Dessutom är de stora effektnivåerna (som formativ bedömning påstås ha) suspekta givet de brister som man kan finna i den underliggande vetenskapliga bevisningen.
  7. För att formativ bedömning ska leverera gynnsamma resultat tarvas forskning om ämnesspecifik formativ bedömning.
  8. och så vidare

Om formativ bedömning (eller andra pedagogiska idéer, för övrigt) ska kunna utvecklas till redskap som får genomgripande effekter i skolan behöver de prövas, diskuteras och beforskas. Diskussionen om de pedagogiska rönen måste hållas öppen och bra tillämpningar av formativ bedömning måste skiljas från de dåliga.

Kanske kan inte vetenskapen heller ge oss färdiga verktyg, utan snarare idéer och koncept som kan inspirera oss i skolan att pröva nytt eller att försöka utveckla vår praktik?

1 kommentar

Under Bedömning, Debatt, Empiriska studier, Lärande, Teoribildning, Undervisning