Lærerforening: AI skal ikke bedømme opgaver i gymnasiet

Thomas_Kepler_to
Tomas Kepler, formand for Gymnasieskolernes Lærerforening Foto: Gymnasieskolernes Lærerforening
Dette er et debatindlæg. Det er udtryk for skribentens holdning. Du er velkommen til at deltage i debatten - send dit indlæg til [email protected].

HEN OVER SOMMEREN HAR et spidsformuleret debatindlæg i Politiken - om brugen af kunstig intelligens i bedømmelsen af skriftlige opgaver i gymnasiet - vakt opsigt. Debatindlægget er skrevet af tre studerende fra Aalborg Universitet, som i et bachelorprojekt har fået 119 gymnasielærere til at bedømme den samme opgave i skriftlig dansk. Resultatet viste store udsving i bedømmelsen med karakterer fra 00 til 12.

Retfærdigvis fremgår det dog af projektet, at der i altovervejende grad er overensstemmelse mellem gymnasielærernes bedømmelser. Det er altså et fåtal, der ligger i gruppen med udsving i vurderingerne. 

I den forbindelse er det værd at bemærke, at karaktergivningen ved eksamen altid sker i dialog mellem to fagkompetente censorer, der sammen giver en bedømmelse og karakter for opgaven. Hvis den ene skulle overse kvaliteter, bliver det stort set altid påpeget af den anden censor. Endelig har eleven mulighed for at klage over en samlet bedømmelse, hvorefter besvarelsen kan blive sendt til en ny bedømmelse med andre censorer. På den måde har vi opbygget et godt og finmasket system, der eliminerer eventuelle fejl i bedømmelser af elevers opgaver ved studentereksamen.

Elevers retssikkerhed trues  

Det virkelig bekymrende ved bachelorprojektet er, at de studerende ud fra eksperimentet, der jo intet har med virkelighedens bedømmelsessystem at gøre, i debatindlægget foreslår at lade AI – her ChatGPT – erstatte den ene censor. De studerendes argumenter er, at det vil skabe større sikkerhed i bedømmelsen, effektivisere bedømmelsesprocessen og gøre den ”mindre afhængig af én gymnasielæres hjerne og dermed mere objektiv”.

LÆS OGSÅ: Tesfaye nedsætter ekspertudvalg for at sætte en stopper for snyd med ChatGPT

Forslaget vil formentlig få mange økonomer til at slikke sig om munden, men det har ingen gang på jord, fordi det er behæftet med så mange konsekvenser, som både rammer bedømmelsesgrundlaget, kernen i læring og elevers retsstilling.

Tager vi det sidste først, er det nærliggende at spørge, hvem der har ansvaret for en fejlagtig karakter givet til en elev af et uigennemskueligt AI-system. Er det systemets udviklere, den enkelte skole eller Børne- og Undervisningsministeriet?  Hvad stiller vi i det hele taget op med elevers retssikkerhed og klagemuligheder, hvis AI indgår som medbedømmer af opgaver?

Dertil kommer en række udfordringer ved de store sprogmodeller som for eksempel ChatGPT. Vi står på bar bund, fordi vi ikke ved, hvad det er for enorme mængder af data, de er trænet på. Som lærere har vi derfor ikke en jordisk chance for at kunne udfordre eller forklare, hvad der ligger bag en sprogmodels afgivelse af en given karakter. 

Vi aner ganske enkelt ikke, hvad der er vægtet i vurderingen af opgavens faglige indhold, og der er en stor risiko for, at bedømmelsen er foretaget ud fra bias i træningsdata, som for eksempel gør, at sprogmodellen ikke kan opfange og værdsætte kreative besvarelser, som falder udenfor systemets algoritmer og standardiserede mønstre i datagenkendelser. Hvis ChatGPT genkender visse ord, vendinger eller sætningsstrukturer, der ofte optræder i "topbedømte" opgaver i træningsdata, kan den eksempelvis tillægge disse en overdreven værdi i bedømmelsen.

Blinde vinkler og bias i træningsdata

En anden bias er, at en sprogmodel som eksempelvis ChatGPT er trænet på især omfattende amerikanske data. Det kan slå igennem i højere AI-bedømmelser af opgaver, der benytter sig af amerikanske kulturelle referencer - foreksempel historiske begivenheder, litteratur, film eller sociale normer.  

I artiklen ”Faglig sorg: Når generativ AI skaber følelser af magtesløshed”, skriver Per Størup Lauridsen om en underviser i historie, der bliver udfordret på sin faglighed af elever, der brugte ChatGPT.

Helt konkret havde underviseren undervist i Anden Verdenskrig, og eleverne havde undersøgt emnet ved hjælp af ChatGPT i stedet for at bruge deres lærebog eller søgninger på Google. Her viste det sig, at eleverne stolede mere på sprogmodellens output end på underviserens forklaring.

LÆS OGSÅ: UCL indfører regler om AI: "AI er og bliver en del af den virkelighed, som vores dimittender skal ud at virke i"

Dette udløste en stor diskussion mellem eleverne og underviseren om Winston Churchills rolle under krigen. Problemet var dog, at ChatGPT præsenterede Churchill ud fra et amerikansk synspunkt og ikke et bredere vestligt perspektiv. Dette skabte en konfrontation, hvor eleverne følte sig bedre oplyst af AI’en end af underviseren, understregede Per Størup Lauridsen.

Eksemplet er velegnet til at illustrere, at denne bias i anvendte træningsdata risikerer at afspejle sig i bedømmelser fra for eksempel ChatGPT, som nemt kan gå under radaren og ligger som skjulte ståsteder og kontekster i teknologien. Det bryder fundamentalt med princippet om åbenhed og retfærdighed i bedømmelser. 

Menneskelig kontakt og intuition er uvurderlig 

Hvis vi ser på bedømmelser bredere end selve eksamen, ramler vi ind i kernen ved læring. Det handler grundlæggende om mødet mellem lærer og elev, hvor menneskelig kontakt åbner for erkendelser gennem dialog, logik og argumentation. 

Dette møde kan en ChatGPT ikke erstatte, fordi den fundamentalt mangler menneskelig intuition og kun kan kopiere vores ræsonnementer og logik uden dybere forståelse, indlevelse og empati. Dermed er ChatGPT ikke i stand til at sætte sig ind i nuancerne i en elevs udvikling og progression fagligt og menneskeligt.

Det er blandt andet i bedømmelsen af elevers opgaver, at vi som undervisere for alvor lærer dem at kende og kan vurdere deres arbejde i lyset af tidligere præstationer og individuelle læringsstile.

LÆS OGSÅ: KP ændrer eksamener for at undgå snyd med ChatGPT

ChatGPT har ingen mulighed for at bygge på denne personlige viden, og det kan både gå alvorligt ud over elevernes motivation og føre til misvisende bedømmelser. Sprogmodellen er ikke i stand til at opfange og tolke subtile signaler og forstå den individuelle kontekst, som er medvirkende til at give eleven en retfærdig vurdering. Bedømmelse og karaktergivning er ikke en eksakt og automatiseret maskinel videnskab. Det er afgørende at have med i overvejelserne og drøftelserne af brugen af generativ kunstig intelligens i bedømmelser af elevers opgaver og præstationer.

Udfordringerne ved at lade en sprogmodel som ChatGPT bedømme elevers arbejde er mange og varierede. De spænder fra problemer med retssikkerhed, skjulte træningsdata og bias over mangel på menneskelig intuition og dømmekraft til bekymringer om langsigtede konsekvenser for elevernes læring. 

Disse udfordringer understreger, hvor vigtigt det er, at vi fastholder lærernes menneskelige bedømmelse og pædagogiske rolle og autoritet som en central del af uddannelsessystemet. Derved sikrer vi retfærdige, etiske og pædagogisk forsvarlige vurderinger af elevers opgaver og præstationer i gymnasiet. Det må vi på ingen måde sætte bare det mindste over styr ved at lade teknologien forblinde os og åbne døren på klem for generativ kunstig intelligens i bedømmelsesgrundlaget.

Deltag i debatten - send dit indlæg på maks. 600 ord til [email protected].
GDPR