Dansk sprog

Danske tekster gøres klar til kunstig intelligens

Danske tekster bliver nu frit tilgængelige. Det er afgørende for at bygge sprogmodeller, hvor dansk kultur og sproglige sammenhænge afspejles i resultaterne. Data bliver uafhængige, transparente og vil respektere ophavsretten og reglerne om databeskyttelse.

Tekstdata på dansk skal standardiseres og gøres tilgængelige til udvikling af kunstig intelligens. Det fremgår af regeringens nye AI-vision frem mod 2027. Målet er at gøre ca. 200 mia. ord. tilgængelige. 

Det er afgørende, at kunstig intelligens fungerer på dansk for både det private erhvervsliv og offentlige myndigheder. Kunstig intelligens skal ikke bare forstå dansk. Sproget skal også afspejle danske værdier og traditioner. 

De fleste store sprogmodeller – som chatbots og digitale assistenter bygger på – er udviklet af amerikanske tech-virksomheder. De er trænet på engelsksprogede data. Det betyder, at modellerne ofte tager udgangspunkt i amerikansk kultur og vendinger. Derfor er der brug for flere tilgængelige tekstdata på dansk af høj kvalitet.

Digitaliseringsstyrelsen koordinerer initiativet. Målet er, at store mængder tekstdata fra blandt andet Rigsarkivet, Det Kgl. Bibliotek og Folketinget bliver gjort tilgængelige. Indsatsen vil tage hensyn til ophavsret og privatliv.

Fakta

Der afsættes samlet 21,1 mio. kr. frem fra 2024-2027. Pengene bruges til at gøre danske tekstdata tilgængelige.

Initiativet omfatter ca. 300 mia. tokens (eller ca. 200 mia. ord) af en tilstrækkelig kvalitet. Det skal skabe fundamentet for, at dansk sprog, kultur, værdier og praksis kan repræsenteres i nye teknologiske løsninger. Derved øges mulighederne for at anvende kunstig intelligens.

Initiativet vil i første omgang fokusere på at gøre tekstdata fra Rigsarkivet og Det Kgl. Bibliotek tilgængelige. Det gælder bl.a. offentlige myndigheders publikationer, data fra Folketinget samt øvrige åbne data, som ikke er belagt med ophavsret.

Data fremstilles på en måde, så de er tilgængelige og i et format, som kan anvendes i eksempelvis udviklingen af sprogmodeller.