Evaluering

I løbet af projektet opstod der et ønske om en formel, kvantitativ evaluering, i tillæg til den løbende, kvalitative evaluering, dels for at kunne kvalitetsbedømme og sammenligne produktet, dels for at kunne træffe funderede beslutninger mht. visse systematiske indstillinger (søgningsdybde, antal forslag, hastighed). Vi besluttede at gennemføre evalueringen på tilfældige uddrag fra konsortiets ordblindetekster, i form af en sammenligning mellem den håndkorrigerede guld-standard (forklaring) og live-kørsler af OrdRet på de samme data. Efter en kontrol af falsk positive fejlmeldinger for de valgte testdata (200 tekster, 32.512 ord) blev der imidlertid fundet yderligere 10-15 % ”ægte” fejl, der ikke havde været med i den oprindelige guld-standard, og revisionen er ikke i skrivende stund helt afsluttet.

I forbindelse med evalueringen blev OrdRet kørt uden sin statistiske fejldatabase , men med de manuelt kompilerede fejlmønstre. For at kunne bedømme kvaliteten i fejlforslagsprioriteringen, brugte vi såkaldte vægtningspoint: 1 point, hvis det korrekte forslag var prioriteret højest, ½ point, hvis det stod på plads 2, 1/3 for 3. plads osv. Kun de første 5 forslag blev evalueret. Som almindelig i evaluering af sprogteknologiske programmer, beregnede vi recall og precision. Førstnævnte fortæller hvor stor en procentdel af alle fejl blev fundet, mens sidstnævnte måler, hvor stor en procentdel af OrdRets fejlmarkeringer var korrekte. Med andre ord er recall et mål for falsk negative, mens precision bedømmer falsk positive. De to parametre kan slås sammen i en såkaldt F-Score, en slags matematisk gennemsnit der dog straffer systemer, hvor en forbedring af den ene parameter går for meget ud over den anden. Med vores vægtningsmetrik skelner vi desuden mellem simple recall (om fejlen er markeret overhovedet) og vægtet recall (hvor godt det korrekte forslag blev prioriteret). Vægtet precision og vægtet F-Score, omend lidt uortodoks, blev beregnet tilsvarende.

Til sammenligning blev der også gennemført en manuel evaluering af MS Word for de samme data, og med den samme metrik. Stavekontrollen i MS Word kan som den mest udbredte betragtes som en slags standard, og resultaterne for Word vil derfor i det følgende blive omtalt som base line.

Resultater af kvalitetstest
	Simple Recall	Simple Precision	Simple F-Score	Weighted Recall	Weighted Precision	Weighted F-Score
All Levels	67.9	91.7	78.0	43.0	58.1	49.4
Safe Mode (no green)	54.6	99.1	70.4	34.0	61.8	43.9
Word Level (i.e. no CG)	59.6	89.8	71.6	32.3	48.7	38.9
Word Level (no green)	49.1	93.4	64.4	25.2	47.8	33.0
MS Word	53.5	97.3	69.1	19.7	35.7	25.4

De anførte tal viser, at OrdRet er klart bedre end en konventionel stavekontrol til at finde fejl og, ikke mindst, til at vægte rettelsesforslag i ordblindetekster (vægtet recall 43.0 sammenlignet med Words baseline af 19.7). Prisen, en suboptimal uvægtet precision, kompenseres ved at skelne mellem sikre (rød-markerede) og usikre (grøn-markerede) fejl. Uden vægtning ligger såvel recall-gevinsten som precision-tab inden for det ”grønne” område, mens ”røde” fejl har en uvægtet recall og precision i nærheden af Words baseline (hhv. 99.1 og 54.6). Med vægtning for forslagsprioritering ligger samtlige tal, både rød og grøn for både recall og precision, over base line-værdierne (mellem 60% og 115% forbedring). Selvom allerede den kontekst-frie ordniveau-del af systemet er en forbedring mht. forslagsprioritering (vægtet F-Score 33 mod base line 25.4), er det på dette område at Constraint Grammar modulerne har deres hovedvirkning (vægtet F-Score 49.4).

Denne side er taget fra rapporten, som er tilgængelig i PDF format:

Rapport om projektet OrdRet (410 KiB, PDF)