Nokre internasjonale språkmodellar er trena på journalnotat, både strukturerte og ustrukturerte. Dei er som regel er trena på eit allment tilgjengeleg datasett frå Beth Israel Deaconess Medical Center i Boston, USA (MIMIC-III-datasettet). Dette innhaldet baserer seg på anonymiserte data frå ca. 38 500 pasientar før år 2012 i radiologirapportar og epikriser. Datasettet representerer difor eit utsnitt av faktisk helsefagleg språkbruk. Nokre andre helsefaglege språkmodellar hentar data frå Massachusetts Institute of Technology (eICU-datasettet, frå ca. 139 000 pasientar) og Clinical Practice Research Datalink (longitudinelle data (data over ei lengre periode) frå 7 % av alle pasientar i Storbritannia).
I Noreg har ei lovendring opna for at Helsedirektoratet kan gje dispensasjon frå teieplikta (tausheitsplikten) for å tilgjengeleggjere helseopplysingar frå pasientjournalar når føremålet er utvikling av avgjerdsstøtteverktøy (beslutningsstøtteverktøy) basert på kunstig intelligens, og til å ta slike verktøy i bruk i klinikk, jf. helsepersonellova § 29.
Generelt kan ein seie at det må gjerast ei konkret vurdering av kvart enkelt datasett. Dette må gjerast av dataansvarleg før tilgjengeleggjering.
Det er etablert ei tverretatleg rettleiingsteneste med juristar frå Helsedirektoratet, Direktoratet for medisinske produkt (DMP) og Helsetilsynet slik at prosjekt som har spørsmål knytt til kunstig intelligens kan få svar på spørsmål etter fleire regelverk samstundes: https://www.helsedirektoratet.no/tema/kunstig-intelligens/tverretatlig-veiledningstjeneste
Døme er Helse vest IKT som nyttar journaldokument frå Helse vest HF i trening av sin språkmodell. Journaldokument har også blitt brukt i ClinCode-prosjektet hos Nasjonalt senter for e-helseforsking, Universitetssjukehuset i Nord-Norge (UNN) og DIPS AS.