Modersmål og kunstig intelligens: Do you get me, Siri?

I disse år sker der en rivende udvikling inden for sprogteknologi og kunstig intelligens. Men for mange sprog i Europa og i Norden er der langt endnu: Tech-giganterne understøtter hverken stavekontrol eller automatisk oversættelse for sprog som grønlandsk og samisk. Hvad betyder det for de små sprog der bliver forbigået? Og hvad kan vi gøre for at støtte dem? Måske har EU en del af svaret.

af Sabine Kirchmeier · formand for EFNIL, European Federation of National Institutions of Language

5. maj 2022 · 7 minutter læsetid

Der findes ca. 7000 sprog i verden, kun ca. 100 af dem kan bruges digitalt, fx i oversættelsesprogrammet Google Translate eller i Microsoft Word. Mennesker, som har de resterende 6900 sprog som modersmål, kan ikke regne med på at blive serviceret på deres eget sprog når de fx søger og får oversat information på nettet, skriver digitale tekster, bruger selvbetjening på offentlige hjemmesider, bestiller varer online eller – i en ikke særlig fjern fremtid – bruger kunstig intelligens eller taler med en robot.

Også dansk og grønlandsk halter bagud, viser de seneste resultater fra EU-projektet European Language Equality (ELE). Her har man i løbet af 2021 taget temperaturen på 87 europæiske nationale og regionale sprog samt en række minoritetssprog for at vurdere hvor godt de er rustet til fx det digitale indre marked, hvor man skal kunne handle på kryds og tværs af Europa uden tekniske eller sproglige handelsbarrierer. En tilsvarende undersøgelse i mindre skala blev offentliggjort i 2014 i den såkaldte METANET-rapport, som viste at det stod temmelig håbløst til for de fleste officielle europæiske sprog – lige bortset fra engelsk.

Den nye ELE-undersøgelse fra 2021 viser at sprog som tales af mange millioner mennesker, fx engelsk, tysk, spansk og fransk, i dag ganske vist er væsentligt bedre stillet end i 2014, og der er også sket gode udviklinger for mindre sprog, fx dansk. Men teknologien og forskningen, især inden for kunstig intelligens, har sat yderligere skub i behovet for programmer og tjenester der kan håndtere sprog. Overlæggeren for hvornår et sprogsamfund er tilstrækkeligt rustet til at gøre sig gældende digitalt, er derfor rykket gradvist højere. En tilfredsstillende sprogteknologisk dækning i dag kræver mere viden og flere ressourcer end i 2014.

På trods af statslige investeringer i udviklingen af dansk sprogteknologi, ligger mindre sprog som dansk i 2021 derfor fortsat langt tilbage i feltet i forhold til de store sprog. Man taler om fragmentarisk understøttelse, dvs. det går nogenlunde på nogle områder, fx automatisk oversættelse, mens der er store mangler, når det gælder talegenkendelse. Det betyder for mange at man ikke bliver forstået ordentligt og skal rette meget når man dikterer en tekst, og at funktioner som automatisk telefonomstilling ikke fungerer godt nok. Virksomheder og offentlige institutioner i Danmark kan derfor ikke bruge teknologien til at effektivisere lige så godt som man kan i engelsktalende lande.

Grelt står det til for de meget små, officielle EU-sprog som fx maltesisk med ca. 500.000 modersmålstalende og irsk med 170.000, og for sprog i associerede lande som islandsk med 314.000 modersmålstalende, men helt håbløst er det for de små sprogsamfund som grønlandsk og samisk med hhv. 56.000 og 30.000 modersmålstalende borgere. De er udfordret på flere områder. Én udfordring er selve sprogsamfundets størrelse. Når der kun er 56.000 mennesker som har grønlandsk som modersmål, er antallet af mennesker der beskæftiger sig med forskning i og udvikling af sprogteknologi for grønlandsk, naturligvis langt mindre end antallet af mennesker der beskæftiger sig med sprogteknologi for fx engelsk.
 

Markedsmekanismerne styrer om vi kan bruge vores eget sprog

Indsatsen der skal til for at udvikle sprogteknologi til et givet sprog, er imidlertid nogenlunde den samme, uanset hvilket sprog det drejer sig om. Man kan godt profitere lidt hvis et sprog ligger meget tæt på engelsk, men ser man på grammatiske detaljer, faste vendinger og kulturelle referencer, opdager man hurtigt at man ikke bare kan overføre programmer fra engelsk til fx dansk.

Tænk blot på substantivernes former. På engelsk har man ental og flertal: house og houses. Og så har man ’s eller ’ i genitiv, altså fire former. På dansk har vi ud over ental og flertal også bestemt form, så vi får: hus, huset, huse, husene og hertil kommer genitiv -s på hver af dem, så det giver i alt otte former. Derudover skriver vi de fleste sammensætninger i ét ord, mens man på engelsk som regel skiller delene ad, så sprogteknologi bliver til language technology. Det giver udfordringer for de statistiske sprogprogrammer. Endnu vanskeligere bliver det for sprog som baskisk, grønlandsk og samisk som hører til helt andre sprogstammer end den germanske, som er fælles for engelsk og dansk.

En anden udfordring er at mange minoritetssprog ikke har den samme rige skriftsproglige tradition som de officielle sprog har. Mange af dem har igennem århundreder levet en tilværelse i skyggen af de officielle sprog og er holdt i live via mundtlig overlevering uden et egentligt skriftsprog. Da de nyeste teknikker inden for sprogteknologi og kunstig intelligens ofte kræver store mængder af tekst, dvs. tekstsamlinger med flere millioner ord, kommer minoritetssprogene til kort.

Der har i de seneste år været god støtte til at udvikle sprogteknologi for fx grønlandsk og samisk fra diverse fonde og fra politisk hold, så der findes efterhånden både maskinoversættelse mellem grønlandsk og engelsk, stavekontrol for grønlandsk og samisk og flere andre redskaber. Men desværre finder disse redskaber sjældent vej til brugerne af Word fra Microsoft, Gmail fra Google eller Siri fra Apple.

En væsentlig forklaring på denne situation er ud over sprogsamfundenes størrelse de herskende markedsmekanismer. Det er mere attraktivt for tech-giganterne at satse på store sprog som engelsk, spansk, fransk og tysk, simpelthen fordi der potentielt kan komme flere kunder i butikken.

På den seneste konference som blev afholdt af EFNIL (European Federation of National Institutions for Language) i 2021 var temaet de nationale sproginstitutioners rolle i den digitale tidsalder. Her blev det tydeligt at mindre, samfundsbærende sprog som grønlandsk og samisk har brug for mere politisk opbakning, end de får for tiden.

Per Langgård, fra det grønlandske sprogsekretariat, kunne bl.a. berette, at han for noget tid siden havde udviklet en avanceret stavekontrol for grønlandsk. Han havde tilbudt Microsoft at de kunne få den som plug-in modul til Word ganske gratis, men havde fået et blankt afslag. En facilitet, som er en fuldstændig selvfølge for de fleste danskere, er således nærmest uopnåelig hvis man har grønlandsk som modersmål, udelukkende på grund af markedsmekanismerne.

Konsekvensen er enten at grønlandsktalende må undvære stavekontrollen – og dermed acceptere flere fejl eller en nedgang i produktiviteten når de skriver tekster – eller gå over til at bruge et af de andre sprog som Microsoft tilbyder, fx dansk eller engelsk. Man risikerer at skrive langsommere, fordi man leder efter ordene og de korrekte vendinger, og teksten bliver ofte mere ubehjælpsom og mindre overbevisende.

 

Kunstig intelligens forudsætter god sprogteknologi

Stavekontrol er en forholdsvis simpel form for sprogteknologi, og hvis der allerede her er problemer for de små sprogsamfund, hvordan skal det så gå med de mere avancerede programmer som fx talegenkendelse. Kunstig intelligens vil i fremtiden komme til at berøre langt flere borgere end i dag, efterhånden som virksomheder, stat og kommuner begynder at udnytte dens potentiale. Det er på høje tid at også de mindre sprogsamfund kommer med i denne udvikling.

Der har været stor opmærksomhed fra politisk side i hele Europa på beskyttelse af persondata og ophavsret, på dataetik og serverkapacitet og på at fremme de tekniske færdigheder der skal til for at udvikle og håndtere den nye teknologi.  Den sproglige dimension i kunstig intelligens er imidlertid først nu ved at komme på dagsordenen for alvor, og den vil utvivlsomt komme til at beskæftige forskere og beslutningstagere i mange, mange år.

Den første bølge inden for kunstig intelligens har især haft fokus på at systemerne ved hjælp af avanceret statistik udtrækker viden af store mængder tekst- eller taledata og derved bliver i stand til at analysere og producere tekster eller talt sprog. Man opdagede imidlertid hurtigt at det ikke er ligegyldigt hvilke data den kunstige intelligens bruger som udgangspunkt. Algoritmerne har en tendens til at reproducere skævhederne i de sproglige data – de såkaldte bias. Det drejer sig typisk om skævheder, der i forvejen eksisterer i vores samfund og i vores sprog. Er data indsamlet fra kontekster som er er domineret af mænd, vil systemerne primært producere tekster der handler om mænd. Indeholder data fra fx sociale medier en overvægt af racistiske ytringer, vil systemet også formulere sig racistisk.

Mange af de nyeste forskningsartikler inden for sprogteknologi og kunstig intelligens handler derfor om hvordan man kan sammensætte de sproglige datasæt så de kommer i bedre balance, eller hvordan man kan modvirke at skævhederne kommer til udtryk når systemet producerer tekst eller tale. Dette kræver yderligere resurser i form af forskningsindsatser og arbejdskraft.

Den seneste sprogpolitiske rapport fra EFNIL viser at ca. halvdelen af de europæiske lande, heriblandt Danmark, har vedtaget strategier for sprogteknologi, og heldigvis har EU-Parlamentet og EU-Kommissionen bl.a. med ELE-projektet vist at de også er klar till at understøtte udviklingen – ikke blot for de officielle EU-sprog, men for alle sprog i EU. Det er en ambitiøs målsætning, men den er i høj grad nødvendig, for sproget udgør en væsentlig del af hvert enkelt menneskes identitet, og ingen bør være tvunget til at bruge et andet sprog end sit modersmål i mødet med fremtidens robotter eller kunstige intelligens.

Forfatteren anbefaler:

Rapport fra sprogteknologiudvalget under Dansk Sprognævn: Dansk Sprogteknologi i verdensklasse https://sprogtek2018.dk/?p=409

Video fra sprogteknologiudvalget under Dansk Sprognævn: Alle har brug for sprogteknologi https://sprogtek2018.dk/