9. juni 2014

Avvik mellom standpunkt- og eksamenskarakter: Hverken sympatipoeng eller trynefaktor

Forskning viser at det finnes systematiske avvik mellom standpunktkarakterer og eksamenskarakterer for grunnskolen, påpekte Baard Meidell Johannesen i fjor, og trakk fram tre grupper som ofte får høyere standpunktkarakter enn eksamenskarakter: minoritetselever, svake elever, og jenter. Forklaringen hans er at lærerne deler ut "sympatipoeng" og ellers favoriserer elever av samme kjønn.

Det finnes imidlertid en rekke andre mulige forklaringer på disse systematiske avvikene. Noen er knyttet til normeringsproblemer i mindre grupper, noen til forskjeller mellom hva eksamen måler og hva standpunktkarakteren måler, og noen til problemer ved selve karakterskalaen som måleinstrument. Akkurat hvor stor andel av avvikene som kan forklares ut fra hver av disse faktorene har jeg ikke data til å bedømme, men det skulle være mulig å undersøke det. Jeg fokuserer i det følgende mest på matematikk.


Hva skyldes avvikene for minoritetselevene?

Hvis statistikken er basert på minoritetselever som utgjør et lite mindretall i klassen sin, kan det virke rimelig å tenke at bedre standpunktkarakterer skyldes sympatipoeng fra læreren, slik Meidell Johannesen mener. Imidlertid domineres statistikken sannsynligvis av minoritetselever som utgjør en stor andel av klassen sin. Det er, igjen, et empirisk spørsmål om dette er sant, og jeg har ikke data, men jeg antar at flertallet av minoritetselever går i klasser hvor det er mange av dem. Gitt bosettingsmønstrene utgjør resten av klassen sannsynligvis også elever som ikke kommer fra øverste sosioøkonomiske lag. Da kan bedre standpunktkarakterer skyldes et normeringsproblem snarere enn forskjellsbehandling fra lærerens side. Det er alltid en tendens til å oppfatte gjennomsnittet i klassen som det normale, og å sette bedre og dårligere karakterer ut fra avvik fra denne lokale normen.

Selvfølgelig kan og bør dette motvirkes av jevnlige sensurseminar hvor lærere på tvers av skoler sammenlikner eksempler på besvarelser som svarer til de ulike karakterene. Dette gjøres i utstrakt grad i Osloskolen. Men det er alltid en viss usikkerhet i karaktersettingen, alltid et visst rom for tvil, og i slike tilfeller er det vanskelig å unngå at lokale normer påvirker fordelingen litt. Av helt tilsvarende grunner settes standpunktkarakterer ofte litt for lavt på høytpresterende skoler. Dette skyldes, igjen, neppe bevisst forskjellsbehandling fra lærerens side, men snarere at typiske resultater i klassen ubevisst oppfattes som et slags midtpunkt for skalaen, og at dette påvirker utfallet i tvilstilfeller.

En annen grunn til at minoritetselever kan skåre systematisk lavere på eksamen enn på underveisvurderinger er selve eksamensformen. Eksamen i matematikk omfatter lange, tunge tekster som sjekker leseforståelse i tillegg til regneferdigheter. Om denne elevgruppa skulle gjøre det bedre på mindre teksttunge prøver i løpet av året, så er det ikke sikkert at disse prøvene gir noe mindre sant bilde av elevenes kompetanse. Det kan være at standpunktkarakteren rett og slett måler en litt annen kompetanse enn den som vektlegges på eksamen. Nå kan en kanskje innvende at læreren burde vektlegge elevenes håndtering av sidelange tekstoppgaver sterkere ved fastsetting av standpunktkarakteren, hvis en slik vekting ville predikere eksamenskarakteren bedre. Imidlertid er det problematisk nok at eksamen, som skal gjennomføres på 6 timer, utgjør en så styrende presisering av kompetansemålene. Eksamen utgjør allerede en slags stat i staten, en tolkning av kompetansemålene som er mindre gjennomdiskutert enn selve læreplanen. Det er ikke gitt at en faglærers tolkning av læreplanen er mindre korrekt enn tolkningen til komiteen som skriver eksamensoppgaven.


Elever med lave karakterer

En grunn til at statistikken viser at elever med svært lave eksamenskarakterer ofte får litt bedre standpunktkarakterer kan skyldes at en elevgruppe med særlig variable resultater er representert i dette sjiktet. Elever med ADHD, ulike psykiske vansker, høyt fravær, eller en kombinasjon av disse, kan utmerke seg ved å være særs vanskelige å vurdere fordi prestasjonene deres varierer så sterkt fra dag til dag, og fra oppgave til oppgave. Læreren ender kanskje opp med å bruke et slags gjennomsnitt av et knippe sprikende prøveresultat, uten at det er klart at dette er noe godt mål på hva elevene kan. På gode dager kan eleven fungere på et langt høyere nivå, uten at en dermed kan bruke de beste resultatene til å sette karakteren. Ustabiliteten i prestasjonene er nettopp en karakteristisk del av bildet av disse elevenes ferdigheter.

Hvordan slår dette ut på eksamen? Eksamen er en seks timer lang utholdenhetsprøve med mange lange, vanskelige oppgaver med mye tekst. Elevene er nervøse og ofte trøtte etter å ha sovet dårlig. Under prøven må de holde styr på tre ulike typer ark, to prøvesett, og egne notater, samt huske å skrive pent, og bruke penn på noen deler og blyant på andre. Avhengig av hva slags matpakke de har fått med seg kan blodsukkeret svinge sterkt i løpet av prøven. Dette er ikke en situasjon hvor det er høy sannsynlighet for at elever i denne gruppa viser styrken sin. Om eksamenskarakteren blir lavere enn standpunktkarakteren, så er det ikke sikkert at det er faglæreren som tar feil. Det at sensor ikke vet hvem som har skrevet besvarelsen gjør ikke nødvendigvis vurderingen av matematikkferdighetene mer valid.

Igjen er det et empirisk spørsmål om dette gjelder et stort nok antall elever til å forklare noe av avviket mellom standpunkt- og eksamenskarakterer i statistikken. Jeg vet ikke om det er tilfelle.


Jentene

Jentene skårer bedre enn guttene på eksamen, men får enda bedre standpunktkarakterer sammenliknet med guttene. Jentenes bedre prestasjoner på eksamen skyldes trolig at de er mer samvittighetsfulle: de gjør mer lekser og forbereder seg bedre på prøver. Men hvorfor er fordelen sterkere for standpunktkarakterene enn for eksamenskarakterer? Skyldes dette kvinnelige læreres "storesøstersolidaritet," slik Meidell Johannesen foreslår?

I utgangspunktet ville jeg forvente at en mer samvittighetsfull elev ville ha fordeler på eksamen, men enda større fordeler på underveisvurderinger. På kapittelprøver og innleveringer i løpet av semesteret er oppgavene overkommelige nok til at en flittig og pliktoppfyllende elev kan få mye bedre resultater av å bruke mer tid på arbeidet. Dette fører til mer læring, noe som viser igjen på eksamen. Men på en stor, summativ vurdering som eksamen, hvor det ikke er mulig å repetere alt stoffet like før prøven, vil det være rimelig å forvente at prestasjonene ikke blir fullt så gode som ellers. Derimot vil prøvens omfang antakelig gjøre mindre forskjell for prestasjonene til en elev som forbereder seg relativt lite likevel.

Jeg ville videre forvente at forskjellen er større for fag hvor standpunktkarakteren delvis bygger på omfattende, arbeidskrevende hjemmeoppgaver som særoppgaver og labrapporter enn den er i matematikk, men dette har jeg ikke prøvd å undersøke.

Det ville være interessant å undersøke hvordan forskjellen mellom standpunktkarakter og eksamenskarakter uavhengig av kjønn varierer med skårer på samvittighetsfullhet som personlighetstrekk. Videre ville det være interessant å se om disse variasjonene er nok til å forklare forskjellene mellom jenter og gutters standpunktkarakterer. Det finnes i alle fall belegg for at mange gutter kan få vesentlig bedre skoleresultater bare av å få hjelp til å organisere skolesekken og leksene sine.


Problemer ved karakterskalaen som måleinstrument

Forklaringene over gjelder uavhengig av hvilken interesse læreren måtte ha av at elevene får de karakterene de får. Imidlertid er lærerens oppgave ikke bare å vurdere resultatene av elevens læring, men også å motivere den. Karakterer fungerer ikke bare som måleinstrument, men også som gulrot og pisk. Dette kan gi ytterligere avvik mellom standpunkt- og eksamenskarakterer.

Det er selvsagt etisk problematisk å gi eleven misvisende tilbakemeldinger på resultatene av innsats, men det er også alltid noe rom for tvil og skjønn ved karaktersetting. Noen lærere kan, til dels ubevisst, gi en litt bedre karakter til en elev som har anstrengt seg mye eller gjort klar fremgang. Omvendt vil noen lærere kanskje være tilbøyelige til å vurdere svært gode besvarelser litt strengere når eleven får toppkarakter nesten uten å anstrenge seg. I begge tilfellene er motivasjonen den samme - å oppmuntre til videre innsats og større læring hos eleven.

Jeg har hørt dyktige, erfarne lærer som gir strenge karakterer i tiende klasse si at de unngår å gi dårligere karakterer enn 3 i åttende klasse, unntatt i tilfeller hvor utredning med tanke på spesialundervisning likevel er nødvendig. Dette fordi elever som tidlig får svært lave karakterer rett og slett slutter med å jobbe. Når erfaring tilsier at det å gi eksamenspredikerende karakterer undergraver læring spørs det om plikten til å fremme elevens læring ikke noen ganger må trumfe plikten til å gi samfunnet representativ karakterstatistikk.

Problemene som oppstår når et måleinstrument brukes til å styre atferd gjelder i mange andre sammenhenger enn skolen. Spenningene mellom ulike formål ved et måleinstrument er for generelle til at dette problemet enkelt kan plasseres på lærerens bord.

Et annet problem ved karakterskalaen som måleinstrument er at den er grovkornet og ikke fanger opp de store variasjonene ved ytterpunktene - en kan kanskje snakke om golv- og takeffekter. Én elev kan kunne svært mye mer enn en annen, mens begge får karakteren 1. En elev kan ha gjort betydelig framgang over et år uten at karakteren endrer seg - forskjellen mellom 2- og 2+ kan være stor uten at det synes på karakterkortet. Det kan være vanskelig å overbevise en svaktpresterende elev om at videre innsats er verd bryet når forskjellen ikke viser igjen.


Konklusjon

I hvilken grad hver av disse faktorene forklarer datamaterialet har jeg hverken tid eller metodekunnskap til å undersøke. Det som er sikkert er at Meidell Johannesens konklusjon, nemlig at avvikene mellom standpunkt- og eksamenskarakter må skyldes fordommer hos lærerne, foreløpig synes å være forhastet. Den er basert mer på fordommer enn på data.

1 kommentar:

  1. Men hvordan kan vi være så sikre på at det eksamenskarakter gir et gyldig karakter (for de fleste)? Sprik mellom vurderinger fra sensor til sensor kan ha forskjell i 2 eller flere karakterer, i tillegg er eksamenskarakter mindre stabil over tid enn det standpunktskarakter er.

    SvarSlett