Du benytter en nettleser vi ikke støtter. Se informasjon om nettlesere

Validering for bruk av KI i helse- og omsorgstjenesten (KI-faktaark 2)

Versjon 1.0

Om faktaarket 

Formålet med faktaarket er å forklare ulike måter å validere KI-systemer på i helse- og omsorgstjenesten. 

Det er viktig å skille mellom produsenters og helsetjenestens ansvar ved innføring av medisinsk utstyr i klinikk. Produsenter vil ha ansvar for validering av ytelse i forbindelse med CE-merking, mens helsetjenesten skal ivareta det helsefaglige ansvaret, herunder validering i henhold til produsentens anvisninger.

For medisinsk utstyr er kravene til produsentens validering beskrevet i Guidance on Clinical Evaluation (MDR) / Performance Evaluation (IVDR) of Medical Device Software.Produsenten skal også beskrive hvordan utstyret skal valideres ved ibruktaking i klinikk (der det sikres at utstyret er korrekt installert, fungerer korrekt og gir de svar som forventes). Kravene til helsetjenesten er omtalt i Forskrift om håndtering av medisinsk utstyr (Håndteringsforskriften). 

Informasjonen som videre følger i dette faktaarket er ikke spesifikt ment som veiledning om regelverket for medisinsk utstyr. Faktaarket forklarer ikke detaljerte krav til produsenter og virksomhet. Det vises til rapporten over, som beskriver spesifikke detaljer om produsentens ansvar ved klinisk evaluering av programvare som medisinsk utstyr. 

Faktaarket omhandler følgende typer validering. 

  • Intern og ekstern validering 
  • Teknisk og klinisk validering 
  • Retrospektiv og prospektiv validering 

Valideringstypene beskrives først kort, deretter følger mer utdypende forklaring av dem. 

Validering for bruk av KI i helse- og omsorgstjenesten 

Validering av KI-modeller refererer til prosessen med å evaluere ytelsen og nøyaktigheten til en modell. 

Validering betyr å bekrefte at KI-modellen yter som den er ment, for et bestemt tiltenkt formål.3 Dersom KI-modellen har tiltenkt formål å diagnostisere brudd på et røntgenbilde av en ben, er det akkurat dette KI-modellen skal valideres for. Ved validering av KI-modeller er det derfor viktig at det "tiltenkte formålet" er klart definert. 

Det skilles mellom den valideringen som gjøres i utviklingen av et KI-system og den valideringen som gjøres av virksomheten som skal ta i bruk KI-systemet, og hvem som gjør valideringen. 

 

Illustrasjon av intern og ekstern validering. Intern validering består av teknisk validering i utviklingsprosessen og klinisk validering for å bekrefte tiltenkt bruk. Ekstern validering består av klinisk validering for bruk av virksomhetens data, utstyr og protokoller.
Figur 1: Illustrasjon av intern og ekstern validering, og teknisk og klinisk validering

Intern og ekstern validering 

Intern og ekstern validering viser til hvem som har gjort valideringen. Dersom det er produsenten i utviklingsprosessen kalles det intern validering. For eksempel at KI-modellens ytelse måles på en tilfeldig del av det opprinnelige datasettet, som er trukket ut på forhånd og holdt unna modelltreningen. 

Hvis det er aktører som er eksterne og uavhengige av produsenten kalles det ekstern validering. Ytelsen måles da på et uavhengig datasett, som utvikleren ikke har hatt tilgang til. Ekstern validering kan utføres i en helsevirksomhet, som for eksempel vurderer å kjøpe KI-systemet. 

Teknisk og klinisk validering 

Teknisk validering gjøres i utviklingsprosessen og klinisk validering gjøres når modellen er ferdigutviklet. 

  • Teknisk validering gjøres ved hjelp av et datasett som ikke ble brukt under treningen av modellen. Hensikten med validering er å sikre at modellen generaliserer godt til ukjente data og ikke bare har lært seg mønstrene i treningsdatasettet. 
  • Klinisk validering refererer til prosessen med å evaluere en KI-modell i en klinisk setting, under reelle forhold. Dette innebærer å teste modellen med uavhengige kliniske data og pasienter for å bekrefte at den gir pålitelige og nyttige resultater som kan forbedre medisinsk behandling og beslutningstaking. Formålet med klinisk validering er å sikre at KI-modellen ikke bare er teoretisk solid, men også praktisk anvendbar og fordelaktig i virkelige medisinske situasjoner, slik at den kan bidra til forbedret helsevesen og pasientomsorg.

Retrospektiv og prospektiv validering 

Validering kan utføres enten retrospektivt og prospektivt. 

I prospektive studier følges deltakerne fremover i tid. I retrospektive studier ser man tilbake.

  • Retrospektiv validering er å validere en KI-modell med et datasett som er innsamlet i forkant, og muligens til et annet formål. Slik validering kan være aktuelt i en anskaffelsesprosess der man i forkant av kontraktinngåelsen får testet KI-modellen på virksomhetens egne, allerede innsamlede data (for eksempel bilder i et arkiv). 
  • Prospektiv validering er å teste en KI-modell idet de oppstår i en reell brukssituasjon. Valideringen kan gjøres på virksomhetens egne data, for eksempel bilder som blir tatt under undersøkelse. 

Ved prospektiv validering har man forhåndsbestemt hvilke data som skal brukes og hvordan man skal teste. Forskjellen fra retrospektiv validering ligger i at man har laget en protokoll for datainnsamlingen på forhånd, som dokumenterer hvilke data som skal samles inn, hvor lenge man skal samle data og eksakt hvilke tester man planlegger å gjøre. Når dataene foreligger, er prosessen med å måle ytelsen og dokumentere resultatene lik som for retrospektive studier. 

I en retrospektiv validering analyserer man eksisterende data fra fortiden, og det trekkes konklusjoner basert på denne historiske informasjonen. Fordelen med retrospektiv validering er at det ofte er raskere og mindre kostbare enn prospektiv validering, siden dataene allerede eksisterer. Ulempen er at retrospektiv validering kan være begrenset av nøyaktigheten og fullstendigheten av de eksisterende dataene, og det er ofte vanskelig å kontrollere for forstyrrende variabler eller å etablere årsakssammenhenger. 

For en retrospektiv studie kan det også være usikkerhet om datasettet er plukket ut for å passe spesielt godt med modellen (såkalt «cherry-picking») eller om eksklusjons- og inklusjonskriterier er valgt for å gi bedre resultater. Man kan også være bekymret for publikasjonsskjevhet, ved at studier med gode resultater har høyere sannsynlighet for å bli publisert mens dårlige resultater legges i en skuff. 

Prospektiv validering er ofte mer nøyaktige, men er også mer tidkrevende og kostbare å gjennomføre sammenlignet med retrospektiv validering. Seriøse prospektive studier blir forhåndsregistrert med fast protokoll i internasjonale databaser, som reduserer de nevnte mistankene man kan ha til retrospektive studier. 

Mer om teknisk validering 

De viktigste elementene i teknisk validering inkluderer: 

  • Datasplitting: Datasettet deles vanligvis opp i tre sett: treningssett, valideringssett og testsett.  
  • Treningssett brukes til å trene modellen. 
  • Valideringssett brukes under treningen til å justere hyperparametere, gjøre modellutvalg og å evaluere modellen. 
  • Testsett brukes til å evaluere den endelige modellen etter treningen for å vurdere dens generaliseringsevne. 
  • Justering av hyperparametre4 gjøres under valideringsprosessen av modellen for å finne den beste kombinasjonen av hyperparametre som gir høyest ytelse på valideringssettet. 
  • Måle nøyaktighet: Under validering beregnes forskjellige ytelsesmetrikker, som nøyaktighet, presisjon, tilbakekalling, F1-score, etc., avhengig av hvilken type problem (klassifisering, regresjon, etc.) modellen er designet for å løse. 
  • Kryssvalidering: er en teknikk for å evaluere modellens ytelse og spesielt om den er overtilpasset til treningsdataene. Teknikken innebærer å dele dataene i flere deler (typisk 5 eller 10). Modellen trenes på alle delene minus én, og valideres på den gjenværende delen. Denne prosessen gjentas slik at hver del brukes som valideringssett én gang. Ytelsesmålene til hver iterasjon sammenstilles og gir et samlet mål på ytelsen. 
  • Over- og undertilpasning (engelsk: overfitting og underfitting): Validering hjelper til med å identifisere en eventuell overtilpasning (modellen er for godt tilpasset treningsdataene) og undertilpasning (modellen er ikke godt nok tilpasset dataene). 

Mer om klinisk validering 

Klinisk validering av en modell med representative data er viktig for å vurdere om modellen vil fungere i bruk og på den populasjonen den er tenkt brukt på etter innkjøp. For eksempel, kan en modell for diagnostisering av hjerteinfarkt som kun baserer seg på data fra menn kanskje fungere dårlig på kvinner. Validering kan gjøres i flere omganger. 

De viktigste elementene i klinisk validering inkluderer: 

  • Evaluering i klinisk miljø: Modellen testes på data samlet inn fra ekte pasienter i kliniske omgivelser for å se hvordan den presterer utenfor laboratoriet eller utviklingsmiljøet. 
  • Sammenligning med kliniske standarder: Modellens resultater sammenlignes med de etablerte standardene for medisinsk behandling for å vurdere om den gir sammenlignbare eller bedre resultater. 
  • Sensitivitet og spesifisitet: Måling av modellens evne til å korrekt identifisere positive tilfeller (sensitivitet) og korrekt utelukke negative tilfeller (spesifisitet). 
  • Prospektive studier: Studier hvor modellen brukes fremover i tid med pasienter som ennå ikke er diagnostisert, for å se hvordan modellen presterer i sanntid. 
  • Retrospektive studier: Studier hvor modellen testes på historiske data for å se hvordan den ville ha prestert på tidligere pasienter. 
  • Inter-rater reliability: Sammenligning av modellens resultater med vurderinger fra menneskelige eksperter for å sikre konsistens og pålitelighet. 
  • Klinisk nytte: Vurdering av om modellens bruk fører til bedre kliniske utfall, som forbedret diagnose, bedre behandlingsplaner, og økt effektivitet i pasientbehandling. 
  • Regulatorisk godkjenning: Klinisk validering kan også være en del av kravene for å oppnå godkjenning fra regulatoriske myndigheter, som FDA (Food and Drug Administration) i USA eller EMA (European Medicines Agency) i Europa. 

Mer om intern validering 

Enhver maskinlæringsmodell blir trent på ett (stort) datasett, som ofte deles opp i ulike sett før treningen: et treningssett, et valideringssett og et testsett.7 Treningssettet brukes til å trene KI-modellen. De fleste maskinlæringsmodeller har flere hyperparametere, som påvirker ytelsen. Dette kan for eksempel være antall skjulte lag i en nevralnettmodell, dybden av et beslutningstre, læringsraten man bruker under trening og hvor lenge modellen skal trene. 

Under treningen av KI-modellen blir forskjellige verdier på hyperparameterne prøvd ut, og det gjøres løpende tester på valideringssettet. Den versjonen av modellen som gjør det best på valideringssettet velges etter hvert ut. Ytelsen på valideringssettet er imidlertid ikke en gyldig test av denne modellen fordi den ble plukket ut for å gjøre det bra på nettopp dette. Til slutt testes modellen derfor på testsettet, som består av usette data fra samme opprinnelige datasett. Dette gir et mer reelt estimat på ytelsen til modellen. 

Mer om ekstern validering 

I ekstern validering måles modellens ytelse på et datasett som produsenten (utvikleren) ikke har hatt tilgang til og som ikke har vært brukt i den interne valideringen. Den eksterne valideringen gjennomføres av en uavhengig person eller virksomhet, for eksempel en uavhengig forsker. Ideelt sett bør datasettet til ekstern validering inneholde datapunkter fra underrepresenterte demografiske grupper, slik at det er balansert og representativt. For å vurdere dette, må man etterspørre beskrivende detaljer om datasettet som er brukt i den eksterne valideringen. 

Som beskrevet i «A Clinician’s Guide to Artificial Intelligence»8, kan ekstern validering inkludere bruk av et datasett som er: 

  • Uavhengig av det originale datasettet, men lignende befolkning og setting. 
  • Uavhengig, men forskjellig enten i populasjon (for eksempel etnisitet, sosioøkonomisk status) eller setting (for eksempel screening, behandling i primær- eller spesialisthelsetjenesten, geografisk plassering). 
  • Representativ for de samme eller nye populasjoner over tid - dette vil bidra til å vurdere degradering av modellens ytelse ettersom populasjonen utvikler seg. 
  • Forskjellig av tekniske årsaker (for eksempel på grunn av bilder tatt av forskjellige apparater). 

Skillet mellom intern og ekstern validering er ikke nødvendigvis helt skarpt. Man kan for eksempel tenke seg at en forskergruppe får tilgang til et egnet eksternt datasett og tester sin egen modell på dette fordi de ikke ønsker å dele modellen med andre forskere. Da mister man den garantien som ligger i å bruke en avhengig ekstern aktør, men ellers vil testen ha samme verdi som en ekstern validering. 

Kliniske studier 

Pragmatiske randomiserte kontrollerte forsøk (RCTer) 

Intern validering, ekstern validering og prospektiv validering er observasjonelle, i den forstand at modellen ikke påvirker dataene. Dette kan medføre skjevheter sammenliknet med virkelig bruk, som skyldes årsakssammenhenger. Hvis bruken av en KI-modell ville ført til et annet hendelsesforløp, kan ikke dette fanges opp i en observasjonell studie. Et eksempel er mammografi-screening for brystkreft, hvor observasjonelle studier av sensitivitet og spesifisitet aldri blir helt balanserte, selv om krefttilfellene bekreftes med biopsi. Dette skyldes at enkelte krefttilfeller aldri vil manifestere seg som sykdom fordi pasienten dør av noe annet før kreften gir symptomer. Disse kan fremstå som falske negative hvis de oppdages av screening programmet, men ikke KI-modellen, eller som falsk positiv hvis KI-modellen oppdager dem, men ikke screening-programmet. 

Hvis man ønsker å måle en slik KI-modells ytelse presist, må den derfor kunne påvirke hvilke tilfeller som plukkes ut til biopsi. I slike tilfeller kan man vurdere å gjennomføre pragmatiske kontrollerte forsøk («pragmatisk RCT»). Man bruker ordet pragmatisk fordi man tester ut en intervensjon som del av en kompleks virkelighet, framfor en ren «laboratorie-setting» hvor man har kontroll på alle faktorer. En ulempe med pragmatiske RCTer er at man ikke kan si med sikkerhet hvorfor og hvordan intervensjonen virker, men til gjengjeld fanger man opp indirekte effekter, som f.eks. at svarene fra den ene gruppen er mindre nøyaktige, eller kanskje bruker mer tid eller at antallet det tas biopsi av går opp. Pragmatiske RCTer gir gode estimater på effekten av en intervensjon i den aktuelle organisasjonen, men generalisering til andre enheter kan være problematisk, spesielt hvis arbeidsprosessene der er organisert annerledes. 

 

 

 

[1]  MDCG 2020-1 Guidance on Clinical Evaluation (MDR) / Performance Evaluation (IVDR) of Medical Device Software https://health.ec.europa.eu/document/download/19d9e24f-2808-4e00-bfeb-75892047407d_en?filename=md_mdcg_2020_1_guidance_clinic_eva_md_software_en.pdf

[2] https://lovdata.no/dokument/SF/forskrift/2013-11-29-1373

[3] I standarden ISO 9000:2015 "Quality Management System – Fundamentals and vocabulary" defineres "validation" slik: "Confirmation, through the provision of objective evidence, that the requirements for a specific intended use or application have been fulfilled": https://www.iso.org/obp/ui/#iso:std:iso:9000:ed-4:v1:en 

[4] Charlotte Haug, NEJM AI, Mission and vision: AI-tools must meet the same bar for clinical evidence that is expected from other clinical interventions.

[5] Prospektiv og retrospektiv | Tidsskrift for Den norske legeforening (tidsskriftet.no)

[6] Hyperparametere er konfigurasjonsinnstillinger som brukes til å strukturere maskinlæringsmodeller. Disse parameterne læres ikke fra data, men settes før treningsprosessen og forblir konstante under trening. De påvirker modellens ytelse og kapasitet til å lære fra data, og velges ofte gjennom hyperparameteroptimalisering eller -tuning.

[7] Begrepene «treningssett», «valideringssett» og «testsett» brukes ikke konsekvent i litteraturen.

[8] A Clinician's Guide to Artificial Intelligence: How to Critically Appraise Machine Learning Studies - PMC (nih.gov)  https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7346877/

Siste faglige endring: 10. januar 2025