Datakilder¶
De data som sprogmodeller trænes på er afgørende for hvad de kan bruges til. I Danish Foundation Models (DFM) er tilgangen at vi skal have sikkerhed for at vi må benytte de data vi træner på fra data ejere, samt at vi har fokus på værdiskabende use-cases. Dette gør vi blandt andet gennem samarbejdet med Dansk Sprogmodel Konsortium.
Nuværende datakilder¶
Vi arbejder kontinuerligt på at indsamle data fra flere kilder. Nedenstående tabel indeholder kilder som lige nu, efter bedste overbevisning, kan anvendes til træning af en dansk sprogmodel. Mængden af data vi har nu, er ikke tilstrækkelig til at træne en dansk sprogmodel fra grunden. Størrelsen er angivet i antal tegn.
Datasæt | Dato | Domæne | Licens | Størrelse |
---|---|---|---|---|
AI aktindsigt | nutidig | Kommunale hjemmesider | CC0-1.0 | 408M |
Domsdatabasen | 1855-nu | Domme | CC0-1.0 | 91.2M |
Eur-lex-sum-da | 1993-nu | Jura (EU) | CC-BY-SA 4.0 | 87.8M |
FTSpeech | 2017-nu | Folketingets taler | Ikke standard | 244M |
Scrape Hovedstaden | nutidig | Sundhed | CC0-1.0 | 79.9M |
MeMo | 1870-1899 | Skønlitteratur | Offentligt Domæne | 319M |
Wikipedia | nutidig | Encyklopædi | CC-BY-SA 4.0 | 498M |
Retsinformation.dk (*) | nutidig | Lovtekster | Ikke standard (*) | 1.42G |
Skat.dk (*) | nutidig | Skatteinformation | CC0-1.0 | 354M |
H-Sø (*) | nutidig | Retssager | CC0-1.0 | 204 |
Hestenettet (*) | nutidig | Forum | CC0-1.0 | 1.19G |
Folketinget (*) | 2009-2019 | Debat | Ikke standard | 351M |
Europarl (*) | 2004-2008 | Debat | CC0-1.0 | 312M |
Spontaneous Speech (*) | 2019 | Samtaler | CC0-1.0 | 4.0M |
NAAT (*) | 1930-nu | Taler | CC0-1.0 | 881k |
Dansk Litteratur (*) | 1700-nu | Litteratur | CC0-1.0 | 162M |
Gutenberg (*) | 1700-nu | Litteratur | Ikke Standard | 19.2M |
WikiBooks (*) | 2019-2020 | Manualer | CC0-1.0 | 17.5M |
WikiSource (*) | 1700-nu | Litteratur | CC0-1.0 | 15.5M |
Johannes V. Jensen (*) | - | JVJ’s værker | CC-BY-SA 4.0 | 10.7M |
Religiøse Tekster (*) | - | Religiøse | CC0-1.0 | 3.56M |
TV2R (*) | 2015-2019 | Nyheder | CC-BY 4.0 | 64.04M |
Dasem Data (*) | nutidig | Andet | Ikke standard | 4.45M |
Botxt (*) | nutidig | Bornholmsk | CC0-1.0 | 2.01M |
DDT (*) | nutidig | Andet | CC-BY-SA 4.0 | 546k |
Sønderjysk (*) | nutidig | Sønderjysk | CC0-1.0 | 140k |
Listen vil løbende blive opdateret med flere datakilder. Data kommer bl.a. til at være fra samarbejdet med Dansk Sprogmodel Konsortium. Det skal bemærkes at nogle af datasættene kommer fra Danish Gigaword, angivet i tabellen med (*).
Respekt for dataejere¶
Vi har den største respekt for dem, der ejer data. Vi forstår, hvor vigtigt det er at beskytte og respektere dataejeres ønsker om hvad deres data må bruges til. Hvis du har nogen spørgsmål vedrørende de data vi bruger, er du altid velkommen til at kontakte os. Vi er meget åbne for dialog og sætter pris på input, da det hjælper os med at forbedre vores praksis og sikre, at vi lever op til dataejeres ønsker. Din feedback er vigtig for os, og vi ser frem til at høre fra dig.