Dette produkt er udgået. Vi henviser i stedet til Ret Mig og Kommaforslag. | |||||||||||||||||||||||||||||||||||||||||||||||||||||
Intro Produkt Salg & Priser Hjælp & FAQ Feedback Historie Fremtiden Artikler & Presse Pædagogik Forskning Links Konsortiet |
EvalueringI forbindelse med evalueringen blev OrdRet kørt uden sin statistiske fejldatabase , men med de manuelt kompilerede fejlmønstre. For at kunne bedømme kvaliteten i fejlforslagsprioriteringen, brugte vi såkaldte vægtningspoint: 1 point, hvis det korrekte forslag var prioriteret højest, ½ point, hvis det stod på plads 2, 1/3 for 3. plads osv. Kun de første 5 forslag blev evalueret. Som almindelig i evaluering af sprogteknologiske programmer, beregnede vi recall og precision. Førstnævnte fortæller hvor stor en procentdel af alle fejl blev fundet, mens sidstnævnte måler, hvor stor en procentdel af OrdRets fejlmarkeringer var korrekte. Med andre ord er recall et mål for falsk negative, mens precision bedømmer falsk positive. De to parametre kan slås sammen i en såkaldt F-Score, en slags matematisk gennemsnit der dog straffer systemer, hvor en forbedring af den ene parameter går for meget ud over den anden. Med vores vægtningsmetrik skelner vi desuden mellem simple recall (om fejlen er markeret overhovedet) og vægtet recall (hvor godt det korrekte forslag blev prioriteret). Vægtet precision og vægtet F-Score, omend lidt uortodoks, blev beregnet tilsvarende. Til sammenligning blev der også gennemført en manuel evaluering af MS Word for de samme data, og med den samme metrik. Stavekontrollen i MS Word kan som den mest udbredte betragtes som en slags standard, og resultaterne for Word vil derfor i det følgende blive omtalt som base line.
De anførte tal viser, at OrdRet er klart bedre end en konventionel stavekontrol til at finde fejl og, ikke mindst, til at vægte rettelsesforslag i ordblindetekster (vægtet recall 43.0 sammenlignet med Words baseline af 19.7). Prisen, en suboptimal uvægtet precision, kompenseres ved at skelne mellem sikre (rød-markerede) og usikre (grøn-markerede) fejl. Uden vægtning ligger såvel recall-gevinsten som precision-tab inden for det ”grønne” område, mens ”røde” fejl har en uvægtet recall og precision i nærheden af Words baseline (hhv. 99.1 og 54.6). Med vægtning for forslagsprioritering ligger samtlige tal, både rød og grøn for både recall og precision, over base line-værdierne (mellem 60% og 115% forbedring). Selvom allerede den kontekst-frie ordniveau-del af systemet er en forbedring mht. forslagsprioritering (vægtet F-Score 33 mod base line 25.4), er det på dette område at Constraint Grammar modulerne har deres hovedvirkning (vægtet F-Score 49.4). Denne side er taget fra rapporten, som er tilgængelig i PDF format: Rapport om projektet OrdRet (410 KiB, PDF) |
||||||||||||||||||||||||||||||||||||||||||||||||||||
Copyright 2005 Konsortiet OrdRet Dette produkt er udgået. Vi henviser i stedet til Ret Mig og Kommaforslag. |