Vellykket markedsdialog om et dansksproget talekorpus

30-11-2020
Data

Digitaliseringsstyrelsen gennemførte i november 2020 en markedsdialog, hvor alle interesserede parter havde mulighed for, at komme med indspark til forberedelserne af det kommende udbud at et dansksproget transskriberet og tidskodet talekorpus.

Formålet med markedsdialogen var at opnå viden om markedet for at sikre, at udviklingen af et talekorpus tilfører værdi til markedet og kan danne grundlag for udvikling af nye dansksprogede taleteknologiske løsninger samt, at sikre balance mellem realistiske mål og midler. Dialogen med markedet har dermed været med til at sikre, at udbuddet udformes så der sikres en god konkurrence.

Interesserede parter kunne deltage ved et virtuelt og/eller skriftligt kommentere på materialet til markedsdialogen frem til den. 19. november 2020.

Separate dialoger med syv parter

Markedet har udvist en interesse der har været brugbar og værdiskabende. En række potentielle anvendere og leverandører af et dansksproget talekorpus tilbød deres deltagelse, som Digitaliseringsstyrelsen gik i dialog med. Forud for møderne havde Digitaliseringsstyrelsen publiceret en spørgeramme.

Følgende deltog i markedsdialogen: Mirsk, Dictus, Alexandra Instituttet, Sprogforandringscenteret ved KU, DanSpeech, Tv2 og Det Danske Sprog- og Litteraturselskab.

Indtryk og læringspunkter

Det generelle indtryk fra dialogen er, at der en positiv holdning til projektet og der er, generelt ud fra et anvenderperspektiv, en meget stort efterspørgsel efter at få udviklet et dansksproget transskriberet og tidskodet talekorpus. Dette om end der er forskellige formål med anvendelsen fra forskellige aktører, herunder særligt et ønske om at anvende korpusset til såvel forskning som udvikling af kommercielle sprogteknologiske løsninger.

Følgende punkter opsummerer parternes nedslagspunkter.

Krav til slutprodukt:

  • Fonetisk transskription er ikke særligt efterspurgt af, hverken de aktører, som ønsker at anvende korpusset kommercielt eller de aktører, som ønsker at anvende korpusset forskningsmæssigt. Herunder påpeger flere, at det er vurderingen, at fonetisk transskription vil være en væsentlig cost-driver og, at der vil være større værdi af en øget mængde almindelig transskription. De der evt. kan anvende det, særligt forskningsområdet, bruger forskellige detaljeringsniveauer/foninventar. 
  • Ustruktureret dialog med meget overlappende tale er dels dyrt, at lave en god transskription af og dels giver det en begrænset værdi i forhold til at udvikle talegenkendelse, der skal anvendes af enkeltpersoner. Struktureret dialog, fx interviews kan være et godt alternativ. 
  • Lydoptagelsernes lydkvalitet er meget væsentlig og skal være af høj kvalitet, må ikke være komprimeret og skal være mindst 16Khz.
  • Et dansksproget talekorpus bør tilvejebringes sådan, at der senere kan videreudvikles på det samt tilføres data løbende fra flere aktører.
  • Det er centralt, at dele af korpusset indeholder naturlig tale/spontant tale. Oplæst tale har dog også værdi og sidstnævnte vil være nemmere og billigere at tilvejebringe. 
  • Korpus bør i første omgang favne bredt på det danske sprog med efterfølgende mulighed for, at tilføre fx fagspecifikt sprog og dansk som andet sprog. Herunder bør korpusset dække geografisk bredt, uden dog at inkludere meget stærke dialekter, da for stort fokus på specifikke dialekter vil mindske muligheden for at opnå præcision i det brede sprog.

Tilrettelæggelse af opgaven:

  • Der bør i udbudsmaterialet være åbenhed for, at leverandører kan anvende forskellige fremgangsmåder for at tilvejebringe korpusset. Herunder mulighed for at sammensætte korpusset af eksisterende materialer og foretage nye optagelser. 
  • Det er en mulig cost-driver, at skulle omgøre transskription fordi man undervejs bliver klogere på hvad der er god transskription. Dette kan afhjælpes ved at have en gennemarbejdet manual fra starten.
  • Der bør være åbenhed om, at opgaven løses af et konsortium af flere aktører. Dette for at sikre, at der er den fornødne bredde i kompetencer og kan også modvirke, at opgaven løses for at målrette én aktørs vurdering af behov/metoder. 
  • GDPR vurderes, at være en betydelig udfordring i forhold til at inddrage eksisterende data som en del af korpus fx eksisterende lydoptagelser, lydbøger og podcasts. Dette fordi, der skal sikres at der kan dokumenteres samtykke fra de deltagende parter til, at udstille disse data åbent tilgængeligt og til fri afbenyttelse også til kommercielle formål. 
  • Flere parter tilkendegav, at udbudsmaterialet bør udvise åbenhed i forhold til mange kriterier i kravspecifikationen, sådan at tilbudsgiver fx skal argumentere for valg og fravalg eller beskrive metoder for kvalitetssikring. Kvaliteten af argumenter blev også peget på som den bedste måde, at sikre at tilbudsgiver har de nødvendige kompetencer.
  • Flere aktører pegede på, at tilbudsmaterialet bør pege på delleverancer. Eksempelvis en delleverance om en detaljeret projektplan, og efterfølgende om eksempelvis delvise leverancer af korpus i procent eller timetal.
  • At bede tilbudsgiver om, at levere en sample på lyd og transskription blev af nogen vurderet til at være en dårlig metode til, at vurdere hvilken kvalitet der ville blive leveret, dels fordi det ville være prohibitivt for potentielle leverandører der først vil etablere det specifikke setup, hvis de fik opgaven, dels fordi det er for nemt at give en bedre kvalitet end man senere reelt vil levere.

Næste skridt

Markedsdialogen har bidraget konstruktivt til, at give Digitaliseringsstyrelsen input til at tilrettelægge udbudsmateriale til udbud af et dansksproget transskriberet og tidskodet talekorpus.

Udbuddet forventes offentliggjort i marts 2021.