Tilgang til store mengder språkdata til trening og finjustering av språkmodellar er avgjerande for at dei skal fungere godt. I ein ny studie av språkmodellar for elektroniske pasientjournalar vert det hevda at “[o]ne primary limiting factor for obtaining high quality predictions is limited data”[1]. Like viktig som kvantitet er kvalitet: Språkdata må vere aktuelle (timeliness) og komplette (completeness), dvs. representative og balanserte. Eit anna viktig moment er opphavet til tekstane: Kjem tekstane frå autoritative, verifiserte kjelder eller er det snakk om automatisk omsette nettsider, til tider av låg kvalitet?
I tillegg til autentiske tekstar trengst det også eigne instruksjonsdata og valideringsdata for å trene og validere språkmodellar.
Det finst ulike typar tekstar som blir brukt eller kan brukast som treningsdata til helsefaglege språkmodellar, sjå figur under.