En retorikers guide til de syntetiske stemmer

Syntetiske stemmer er ikke længere kun forbeholdt science fiction-genren, men er allerede at finde i hverdagen – og måske en dag også i krisesituationer. Don’t panic. Frederikke Thegler guider dig gennem syntetiske stemmers potentialer og begrænsninger i både praksis og forskning, blandt andet ved hjælp af ordblinde Bente fra Allerød som har brug for taleteknologi. Robusthed, hurtighed og effektivitet taler for, men hvad med følelserne? Velkommen til et komplekst og grønt område i retorikken.

af Frederikke Thegler · retoriker, kommunikationsrådgiver v. Beredskabsstyrelsen

5. maj 2022 · 7,5 minutter læsetid

Det kan virke helt mærkeligt at insistere på, at retorikken – der altid har beskæftiget sig med kommunikation mellem mennesker – også bør forholde sig til computeres forsøg på dialog og deres stemmeføring. Men i dag er det næsten umuligt at undgå at støde på en computergenereret stemme, da de findes i næsten alle digitale enheder. Det kan være Google Translate, hvor en syntetisk stemme udtaler et kringlet udenlandsk ord for dig, eller Siri og Alexa, der prøver at imitere en dialog. På det sociale medie TikTok oplever man ofte videoer med tekst, der bliver oplæst af en syntetisk kvindelignende stemme, som en aktiv del af videoerne.

Jeg selv fik øjnene op for den retoriske betydning af dansk taleteknologi, da jeg i 2019 opdagede, at næsten alle danske aviser havde fået en syntetisk oplæsningsfunktion på deres netavis. En gammel retorisk disciplin som oplæsning blandet med ny teknologi blev grundpræmissen for mit speciale. Et speciale, der hev mig ind i et ormehul af datalogiske og sprogteknologiske teorier for, hvordan man programmerer den ideelle menneskelige stemme

Det er vigtigt for retorikken at forholde sig til denne udbredelse af syntetiske stemmer i hverdagen. For selvom de i nogle tilfælde kan lyde som menneskelige stemmer, ligger de på ingen måde under for samme anatomiske præmisser, hvilket har en markant betydning for, hvordan man retorisk kan og bør analysere og vurdere deres evne til at formidle.

I denne artikel vil jeg argumentere for vigtigheden i, at dansk retorikforskning forholder sig til og ikke mindst bidrager til videreudviklingen af dansk taleteknologi.  For som flere retoriske forskere rigtigt nok pointerer; bare fordi du har en stemme og kommunikerer mundtligt, er det ikke ensbetydende med, at denne kommunikation er god. For at understrege dette opstiller jeg en hypotetisk case, hvor retorisk hensigtsmæssig kommunikation kan være altafgørende i forhold til, om taleteknologi kan løfte en ellers oplagt kommunikativ opgave.

En hypotetisk case: taleteknologi til befolkningsvarsling

Jeg arbejder til dagligt i Beredskabsstyrelsen med krise- og varslingskommunikation. Vi er i gang med at implementere en teknologi, der vil kunne alarmere borgere direkte på deres mobiltelefon med vigtig information, hvis de en dag skulle være nær en akut krise eller katastrofe. En slags omvendt 1-1-2 så at sige. Selvom mobilen vil larme (ligesom vores luftsirener) og helt sikkert vække én kl. 03.00 om natten, så vil den vigtige information og handlingsanvisningerne kun gives på skrift. Du ville ikke få varslingen mundtligt, medmindre du ventede, indtil du kunne få den over medierne. Der er derfor en oplagt målgruppe af borgere med syns-og læsebesvær, som myndighederne potentielt ikke ville nå lige så hurtigt.

Netop i kriser er tid en vigtig faktor, så lad os forestille os, at Beredskabsstyrelsen gerne ville gøre Danmarks varslinger hurtigt tilgængeligt mundtligt; ring til et trecifret nummer og få med det samme varslingen oplæst mundtligt og få mere information om, hvad du bør gøre i sådan en krisesituation.

Men hvordan ville det så være muligt? Hvilken teknologisk løsning ville være oplagt her?

Nedenfor opstiller jeg tre grunde til, at en voice bot (en talesyntese, der både bygger på teknologien Text-to-Speech og talegenkendelse) ville være oplagt til denne opgave:

  1. Hurtighed er altafgørende i en krisesituation, hvor myndighederne skal videreformidle kritisk information videre til borgere. Taleteknologien Text-to-Speech ville kunne oversætte den nyudsendte varslingsbesked med det samme, og teknologien talegenkendelse ville kunne opfange spørgsmål fra borgeren, som den – hvis oplært korrekt – ville kunne svare på. 

  2. Robusthed i kommunikationsformen er også vigtigt.  Med denne løsning kan bekymrede borgeres opkald gå til et softwaresystem, der ligger bag en Text to Speech-talesyntese, frem for at overbelaste mobilnettet og potentielt spærre for akutte opkald til politiet. 

  3. Det ville være en markant mere effektiv proces at bruge en voice bot frem for et menneske. Scenariet med en menneskelig speaker ville næsten være uoverskuelig for både Beredskabsstyrelsen og speakeren selv, som skulle kunne performe på alle timer af døgnet med samme stemmekvalitet. Dette ville derimod ikke være et problem for en talesyntese, der bare behøver en tekstfil. Jo færre steps der er mellem varslingen og den mundtlige videregivelse af varslingen, desto mere effektiv, og mindre risikofyldt, bliver processen.

    Dette er blot tre ud af mange argumenter, man ville kunne opstille for fordelene ved en taleteknologisk løsning i forhold til at varsle borgere mundtligt ved kriser. Men alt dette er vel at mærke kun på et teoretisk og teknologisk plan – ikke formidlingsmæssigt. Så lad mig rykke casen ud af det teoretiske vaccum og placere det i den hypotetiske praksisorienterede arena; dér, hvor maskinen møder mennesket.

Mød borgeren Bente fra Allerød

Bente fra Allerød er ordblind og har derfor svært ved at læse – særligt når hun er nervøs eller presset. Pludselig larmer hendes telefon. Hun ved, at hun har fået en varsling, men grundet sin ordblindhed forstår hun ikke beskeden. Bente fornemmer larm udenfor, men kan ikke se noget. Hun vælger at ringe til den hypotetiske taleteknologiske varslingslinje. Hun kommer hurtigt igennem og bliver mødt af en kvindelignende stemme, der ‘smilende’ gengiver varslingen, som Bente prøver at forstå alvoren af. Hun får at vide, at der kommer store oversvømmelser om nogle få timer. “Hv-hvor lang tid har jeg til at g-g-gøre mig klar?”, spørger Bente bekymret.

“Jeg forstod ikke dit spørgsmål – vil du gentage?”, hører hun den igen ‘smilende’ talesyntese sige. Bente prøver igen, men hendes nervøsitet og bekymringer påvirker stadig hendes spørgsmål.

“Jeg forstod ikke dit spørgsmål – vil du gentage?”. Nu afbryder Bente bandende forbindelsen, da systemet ikke virkede. Hun vælger at ringe til én i sin familie, eller – endnu værre –  politiet, for at få flere svar. En handling, som myndighederne meget gerne vil undgå i en stor krisesituation.

For selv hvis vi godt ved, at en syntetisk stemme hverken har følelser eller personlighed, så pålægger vi den stadig disse egenskaber.

Selvom systemet teknologisk fungerede i denne situation og sikkert kunne have svaret på Bentes spørgsmål, så fungerede teknologien ikke i praksis. To kritiske mundtlighedsfejl er at finde i ovennævnte dialog. Den første og vigtigste er den smilende stemme, som er standardstemmeføringen for de største ledende virksomheders talesynteser (Google, Amazon, Apple og lign.).

Ved ikke at overveje, hvordan talesyntesens stemmeføring i praksis kan påvirke den alvorlige dialog og de emner, syntesen vil møde i praksis, risikerer man, at borgere bliver endnu mere frustrerede, nervøse og magtesløse. For selv hvis vi godt ved, at en syntetisk stemme hverken har følelser eller personlighed, så pålægger vi den stadig disse egenskaber. Denne ulogiske, men ur-humane detalje kan ødelægge brugeroplevelsen og nytten af et ellers på papiret velfungerende system.

Den anden fejl er den identiske gentagelse af talesyntesens svar – som ofte ses i systemer, men meget sjældent i naturlige dialoger. Ofte kan disse ens svar vække mistillid hos borgerne, så de ikke stoler på, at systemet fungerer korrekt og kan hjælpe dem. Og hvis systemet i dialog med borgeren vækker mistillid, kan talesyntesen umuligt videregive handlekraft til dem, der virkelig har behov for det.

Det retoriske aspekt af taleteknologis påvirkning på mennesker i praksis er stadig et grønt emne inden for retorikkens forskningsfelt. Nogle forskere, som eksempelvis Halcyon M. Lawrence, understreger ligeledes vigtigheden af et retorisk fokus på taleteknologis retoriske virke og påtaler også den manglende fokus i retorisk forskning. Der er kommet mere fokus fra særlig engelsksprogede forskere, men det er meget sparsomt, når det kommer til dansk talesyntese. Fordi taleteknologi står og falder på, om den kan fungere i praksis i dialogen med et menneske på menneskets foretrukne sprog, er det vigtigt, at der skabes dansk retorisk teori inden for dansk talesyntese.

Tretrinsguide til at undersøge taleteknologien retorisk

Teknologi er lavet af mennesker, og selvom man ikke selv kan programmere, kan man stadig undersøge taleteknologis påvirkning af mennesker. Særligt nu, hvor syntetiske stemmer potentielt kan få så vigtige retoriske roller i samfundet, som fx befolkningsvarsling under større kriser. Men hvad er så svaret? Hvordan går man retorisk til taleteknologi og analyserer det? Og hvor skal man starte? Efter nogle dyrtkøbte erfaringer fra mit eget specialearbejde kan jeg klart anbefale, at man husker på tre ting:

  1. step: Husk, at computere fungerer anderledes end mennesker, selvom de begynder at lyde mere og mere som os. Eksempelvis er fortolkning et kernebegreb inden for retorisk oplæsningsteori, men at kræve, at en computer bevidst/ubevidst fortolker en tekst på samme kognitive niveau som et menneske er endnu ikke teknologisk muligt. Det opdagede jeg ved at følge det næste step. 

  2. step: Læs eller skim datalogisk og sprogteknologisk teori, så du får en basal forståelse for de andre videnskabers fokus, mål og problemstillinger. Med den viden kan man lede efter huller eller muligheder, hvor retorisk teori udfylder, supplerer eller modsiger datalogiske og sprogteknologiske teorier om den ideelle syntetiske mundtlighed. For teknologien bevæger sig ind på den retoriske arena, og derfor har retorikken en forpligtelse til at opretholde kriterierne for god mundtlighed, selvom det er syntetisk og derfor agerer under nogle nye forudsætninger. Derudover kan det altid være en fordel at tale med mennesker med den tekniske faglighed, for at sikre, at ens analyse ikke kun bliver relevant for retorikere, men også tværfagligt. 

  3. step:  Vi skal stille krav til syntetiske stemmer og taleteknologi i praksis, og retorikkens metoder kan – med en nødvendig situationstilpasning – også undersøge syntetisk formidling. Eksempelvis benyttede jeg retorisk oplæsningsteori som metodisk fundament i mit speciale om dansk Text to Speech-talesyntese i praksis. Disse bør vi forholde os til, jf. step 1, så vi kan sikre, at retorikkens unikke viden om den hensigtsmæssige stemme i dialogen kan understøtte en bedre implementering af taleteknologi, der utvetydigt vil fortsætte med at fylde mere og mere i vores hverdag.

Med disse tre steps eller råd er du nu klar til at kunne undersøge f.eks. den første ‘kønsneutrale’ talesyntese ‘Q’, talesyntesens udvikling på TikTok eller dialogen mellem mennesker og voice assistents som Siri eller Alexa. Det er bare med at holde godt fast og ikke blive afskrækket, når man bliver suget ind i teknologiens galaktiske kompleksitet – som jo, når alt kommer til alt, stadig er udtænkt af mennesker som dig og mig.

Forfatteren anbefaler:

Edwards, C., Edwards, A., Stoll, B. Lin, X. & Massey, N. (2019). Evaluations of an artificial intelligence instructor’s voice: Social Identity Theory in human-robot interactions. Computers in Human Behaviour, 90, (p. 357-362).

Hoff-Clausen, E. (2010). Retorisk handlekraft hviler på tillid. Rhetorica Scandinavica, 54, (p. 49-66).

Lawrence, Halcyon M. (2019). Beyond the graphic user interface: speculations on the Future of Speech Technology and the Role of the Technical Communicator i Rhetorical Speculations – the Future of Rhetoric, Writing, and Technology, University Press of Colorado, Utah, USA.

Ren, Y., Ruan, Y., Tan, X., Qin, T., Zhao, Z. & Liu, T.-Y. (2019). FastSpeech: Fast, Robust and Controllable Text to Speech. arXiv:1905.09263 [cs, eess], (p .1-13). https://arxiv.org/abs/1905.09263

Thegler, Frederikke S. D. (2020). Artikeloplæsning på danske netaviser. Retorisk kritik af syntetisk og menneskelig artikeloplæsning i praksis, specialeafhandling, Københavns Universitet (p. 1-63).

Wachter-Boettcher, Sara (2017). Technically Wrong: sexist apps, biased algorithms, and other threats of toxic tech, 1. udg., Norton & Company, New York, NY.