Kapittel 2.6Klassifikasjonar og terminologiar som språkdata

Helsefaglege klassifikasjonar (t.d. ICD-11) og terminologiar (t.d. SNOMED CT) er kunnskapsmodellar der omgrepa er strukturerte i hierarki med relasjonar som definerer innhaldet. Desse er i utgangspunktet språklege kjelder av høg kvalitet som ein kunne tenkje seg å nytte som datainnputt i språkmodellar. Det er likevel ei vesentleg innvending: Språkmodellar byggjer på konteksten i setningar. Denne logikken bryt med kunnskapsmodellar, som inneheld listar av termar som ikkje følgjer setningsstruktur, men eit semantisk hierarki. Ei liste over termar (utan setningar) kan difor skape støy og redusere kvaliteten i ein språkmodell.

Det er likevel mogleg at helsefaglege klassifikasjonar og terminologiar kan inngå som ein del av treninga og finjusteringa av språkmodellar, t.d. ved at relasjonen i hierarkiet vert uttrykt ved hjelp av naturleg språk (t.d. «kronisk lungebetennelse er ein type lungebetennelse», eller «kuldeurtikaria er ein type urtikaria forårsaka av låg temperatur» frå terminologien SNOMED CT).

Tekstar der klassifikasjonar og terminologiar blir nytta i naturlege setningar, t.d. tekstdefinisjonar, vil uansett kunne bli viktige. Ei anna kjelde kan vere kodingsreglar (for ICD-10/ICD-11). Dei vil innehalde fagtermar i naturleg språkleg kontekst.

Sjølv om slike ressursar kan vere vanskelege å bruke i treninga av ein grunnmodel eller finjusteringa av han, peiker nokre studiar på at kunnskapsmodellar (knowledge graphs) kan komplementere,og bli integrert i, språkmodellar. Difor bør klassifikasjonar og terminologiar vurderast som ein viktig ressurs.[25]

[25] https://www.nature.com/articles/s41586-023-05881-4

Forrige kapittel

Digitaliserte helsefagbøker

Neste kapittel

Instruksjonsdata

Siste faglige endring: 06. mai 2024