Internasjonale helsefaglege språkmodellar er ofte trena på vitskapelege, biomedisinske tekstar, som PubMed. PubMed er eksempelvis ein internasjonal portal med ein søkjemotor som indekserer samandrag av biomedisinske artiklar. Mange av samandraga lenkjar vidare til fulltekstartiklar, som kan vere fritt tilgjengelege eller krevje abonnement. 16 millionar abstrakt og 5 millionar heile artiklar er tilgjengelege i eit eige datasett for trening av store språkmodellar[19].
I Noreg blir norskspråklege medisinske artiklar publisert i tidsskrift som t.d. Tidsskrift for Den norske legeforening, Kirurgen, Onkonytt, Sykepleien o.a.. Truleg vil også oppgåver og avhandlingar på norsk frå Universitetet i Oslo (digitale utgjevingar ved UiO (DUO)), Universitetet i Bergen (Bergen Open Access Archive (BORA)) og andre universitet vere moglege kjelder. Det er avgjerande at spørsmålet om opphavsrettar og godkjenning av bruk er avklart for alle desse kjeldene.