Behovet for danske sprogmodeller: At bygge bro over den sproglige AI-kløft¶

De seneste år har maskinlæringsfeltet gennemgået en transformativ forandring, primært drevet af fremkomsten af foundation models. Disse modeller, forhåndstrænede på enorme datamængder, kan finjusteres til en lang række opgaver og er dermed uvurderlige på tværs af mange domæner. At engelsk dominerer udviklingen af disse modeller udgør dog store udfordringer for mindre sprogsamfund.

Argumentet for danske sprogmodeller¶

Det globale billede er skævt: langt de fleste foundation models er engelsksprogede, og kun få henvender sig til andre sprog. Selvom flersprogede modeller findes, formår de ofte ikke at fange de sproglige og kulturelle nuancer i mindre sprog som dansk. Dette misforhold er særligt tydeligt i praktiske anvendelser, hvor kulturel kontekst er afgørende — som i sundhedsvæsenet og den offentlige forvaltning.

Udfordringer ved at udvikle danske sprogmodeller¶

Beregningsressourcer — Danske modeller er historisk set blevet trænet med langt færre ressourcer end engelsksprogede. Denne forskel fører til mindre effektive modeller.
Datakvalitet og -mængde — De datasæt, der er tilgængelige til træning af danske modeller, er markant mindre og mindre diversificerede. Høj kvalitets benchmarks og datasæt, der er afgørende for robuste modeller, mangler ofte.
Modeldokumentation — Ordentlig dokumentation, herunder model cards og datasheets, er afgørende for etisk og effektiv brug. Danske modeller har ofte mangelfuld dokumentation, hvilket hæmmer deres anvendelse i kritiske sektorer.

Danish Foundation Models-projektet¶

For at imødegå disse udfordringer har DFM-projektet opstillet fire primære mål:

Udvikling af state-of-the-art modeller — skabelse og vedligeholdelse af avancerede sprogmodeller til dansk tekst og tale
Grundig validering — streng testning på tværs af et repræsentativt opgavesæt
Dokumentation af høj kvalitet — omfattende dokumentation for alle modeller
Open source-samarbejde — alle modeller og træningsprocesser er frit tilgængelige

Fremtidige retninger¶

DFM-projektet planlægger at udvikle open source-sprogmodeller til NLP-, NLU- og ASR-systemer på dansk. Kommende benchmarks vil inkludere data fra diverse domæner som sundhed og jura.

Konklusion¶

Danish Foundation Models-projektet er en samlet indsats for at bygge bro over den sproglige AI-kløft. Ved at fokusere på veldokumenterede modeller af høj kvalitet, der er frit tilgængelige, sikrer DFM-initiativet ikke blot danskens digitale tilstedeværelse, men viser også vejen for andre mindre sprogsamfund.