REVIEW article Front. Digit. Health, 22 July 2022
Sec. Personalized Medicine
https://doi.org/10.3389/fdgth.2022.862095
This article is part of the Research Topic
Multimodal Digital Approaches to Personalized Medicine
Thomas Birk Kristiansen1*, Kent Kristensen2, Jakob Uffelmann3,4 og Ivan Brandslund5
- 1Ishøjcentrets Læger, Ishøj, Denmark
- 2Institute of Law, University of Southern Denmark, Odense, Denmark
- 3Public Danish E-Health Portal (Sundhed.dk), Copenhagen, Denmark
- 4Sundhed.dk International Foundation, Copenhagen, Denmark
- 5Department of Medical Science and Artificial Intelligence, Institute of Regional Health Research, University Hospital of Southern Denmark Sygehus Lillebælt (SLB), University of Southern Denmark, Odense, Denmark
I denne artikel gennemgås dilemmaer og konsekvenser af fejlagtige data for den kliniske [i klinikken/i praksis] implementering af AI [kunstig intelligens]. Det er velkendt, at der er risiko for systematiske fejl, hvis der anvendes fejlagtige og tendentiøse data til at træne AI. Men selv perfekt trænede AI-applikationer kan producere fejlbehæftede output, hvis de får fejlagtige input. For at imødegå sådanne problemer foreslår vi tre trin: (1) AI bør fokusere på data af højeste kvalitet, i det væsentlige parakliniske data og digitale billeder, (2) patienterne bør have let adgang til de inputdata, der fodrer AI’en, og have ret til at anmode om ændringer af fejlagtige data, og (3) automatiserede højtydende metoder til fejlkorrektion bør implementeres i domæner med fejlagtige data, når det er muligt. Vi konkluderer også, at fejlagtige data er en realitet, selv for meget velrenommerede danske datakilder, og at der derfor er et universelt behov for en juridisk ramme for korrektion af fejl.
Kunstig intelligens (AI) i sundhedssektoren kan være meget lovende, selv om der i mange tilfælde mangler stærke kliniske beviser for dens positive virkninger (1). I øjeblikket udvikles AI til mange formål, f.eks. til automatiseret diagnosticering i klinisk laboratoriemedicin (2), til beskrivelse af røntgenbilleder (3), til overvågning af patienter (4) og til at bestemme indkomne patienters akuthed (5).
Den stadigt stigende tilgængelighed af digitale sundhedsdata har sammen med computer- og matematisk udvikling været en vigtig drivkraft i retning af klinisk AI. I Danmark har udviklingen af elektroniske patientjournaler (EHR) gennem mere end 20 år ført til en overflod af sundhedsdata. Danmark har desuden i længere tid end de fleste andre lande indsamlet strenge og systematiske registre over sine borgere, og selv om der også findes mange registre i andre nordiske lande, anses Danmark af nogle for at være et benchmark for registre af høj kvalitet, der berører næsten alle aspekter af livet (6). Alligevel står anerkendte databaser i Danmark over for et problem med, at data af høj kvalitet blandes med data af dårlig kvalitet. Dette er problematisk, da AI er afhængig af datakvaliteten (7). Et eksempel er “IBM Watson Oncology”, en digital lægeassistent baseret på maskinlæring, som på trods af en opreklameret og dyr investering fortsat giver forkerte anbefalinger til kræftbehandling på grund af bl.a. problemer med blandet datakvalitet (8, 9).
I denne artikel gennemgås dilemmaerne og konsekvenserne af fejlagtige data i klinisk AI, især til brug i personlig medicin. Resten af artiklen er struktureret som følger: Afsnit 2 beskriver, hvordan AI trænes, afsnit 3 forklarer, hvordan den kliniske anvendelse af AI påvirkes af fejlagtig EHR [elektroniske patientdata], afsnit 4 viser, hvordan anerkendte danske sundhedsdata ofte er fejlbehæftede, afsnit 5 præsenterer den juridiske regulering af datakvalitet for AI i Danmark og EU, og afsnit 6 diskuterer, hvordan man kan imødegå fejlagtige og fejlbehæftede sundhedsdata for at komme videre med personlig medicin.
AI: Træning, validering og afprøvning
I AI kan computere trænes til at træffe beslutninger og forudsigelser på baggrund af tidligere resultater, ofte på grundlag af store datamængder. I andre sammenhænge kaldes dette profilering, men i forbindelse med sundhedsvæsenet kaldes det ofte for præcisionsmedicin eller personlig medicin. Mange fremskridt inden for AI og sundhedsvæsenet sker ved hjælp af maskinlæring (ML) og deep learning (DL). Udvikling og træning af AI-applikationer (herunder ML og DL) omfatter mindst tre datasæt: et træningssæt, et valideringssæt og et testsæt (10). Træningssættet bruges til at opbygge den indledende AI-model, valideringssættet bruges til at kvalificere modellens ydeevne, og testsættene bruges til at kvalificere nøjagtigheden af den endelige model.
Data kan ofte kategoriseres og mærkes ud fra en bestemt egenskab. En AI-algoritme kan efterfølgende trænes til at genkende mønstre, der matcher denne etiket. Dette kaldes overvåget træning, selv om det i nogle tilfælde også kan være muligt at træne mønstergenkendelse på træningsdata helt uden etiketter, hvilket kaldes uovervåget træning (11).
Ved billedgenkendelse trænes algoritmer f.eks. ofte med billeder, der identificerer de mønstre, der er specifikke for en bestemt diagnose, således at programmet efterfølgende kan genkende diagnosen ved at tjekke, om der er tale om det mærkede mønster. Dette kan medføre åbenlyse problemer ved overvåget træning, fordi AI-applikationen uden en præcis og optimal klassificering kan trænes til at genkende upræcise mønstre, især hvis det sker ved menneskelig vurdering (12). Dette kan endog blive selvforstærkende, fordi en AI-applikations unøjagtigheder og systematiske fejl efterfølgende kan påvirke træningsdataene for fremtiden (13, 14).
Problemer vedrørende tendentiøse og upræcise data til træning af AI er blevet grundigt gennemgået og diskuteret i litteraturen (15-19). Alligevel kan store mængder af træningsdata med tilfældige fejl træne en AI-applikation, som gennemsnitligt er robust og gennemsnitligt yder godt.
Klinisk anvendelse af AI og problemet med fejlagtige elektroniske patientjournaler (EHR)
Når en AI-applikation er trænet, valideret og testet, vil nogle AI-applikationer blive anvendt klinisk. Her er datastrømmen omvendt. Applikationen fodres nu med specifikke data, ofte vedrørende individuelle patienter. Disse data betegnes som inputdata. Når en AI-applikation fodres med inputdata, kan applikationen komme med statistiske forudsigelser, såkaldte outputdata.
Et ofte overset problem skyldes stokastiske [tilfældige] fejl i de registrerede inputdata, der hentes fra virkelige patientjournaler. Hvis der er betydelige fejl i inputdataene herfra, kan disse fejlagtige inputdata føre til fejlagtige output. Selv perfekt trænede AI-applikationer kan producere fejlbehæftede output, hvis de tilføres fejlagtige input. Nogle patienter vil således opleve, at AI-beslutningssupport systematisk fører til forkerte beslutninger. Dette kan ofte tilskrives fejlagtige inputdata. Uanset hvor perfekt AI gennemsnitligt præsterer, vil den ofte lave forkerte forudsigelser, hvis den tilføres forkerte inputdata.
F.eks. kan en fejlagtig diagnose vedrørende en patient resultere i forkert vurderede behandlingsbeslutninger, når denne diagnose (af en tilstand, som den pågældende patient ikke lider af) indlæses i en AI-applikation. Hvis en sådan fejl ikke korrigeres, kan patienten derfor systematisk modtage forkert behandling, når der anvendes AI. Dette er forskelsbehandling på grund af fejlagtige data.
Data i elektroniske patientjournaler registreres generelt af læger på en ustruktureret måde under eller efter en patientundersøgelse. Denne proces er i sig selv behæftet med stor usikkerhed på grund af forskelle i lægernes fortolkninger og vurderinger. Derfor er mange registrerede fund og diagnoser i sagens natur usikre. Det er også vigtigt at understrege, at det ikke er let at indsamle data i dagligdagen.
Parakliniske data og patientbilleder er i sagens natur de mest nøjagtige, og i nogle tilfælde er mængden af data vedrørende en enkelt patient (f.eks. fulde genomer og MR-scanninger) så stor, at de i sig selv kan betragtes som big data, hvilket gør dem robuste over for stokastiske fejl. Præcisionen af parakliniske data afhænger imidlertid af forskellige apparater fra forskellige producenter og modeller, hvilket ofte fører til data, der ikke er direkte sammenlignelige (20).
Desuden ændrer meget teknisk udstyr sin præcision med tiden og skal kalibreres regelmæssigt. Hvis parakliniske data og billeder fra en hel sundhedssektor skal anvendes til AI og personlig medicin, kan det derfor være nødvendigt at synkronisere denne sektor med hensyn til dataindsamling, ensartethed af udstyr og kalibrering af apparater. Det er ikke en let opgave og kan vise sig at være dyrt. Desuden kan det være skadeligt for patientbehandlingen at ændre fokus for dataindsamling for at opfylde behovene for AI. Patientpleje af høj kvalitet bør altid være det primære fokus og indsamling af data af høj kvalitet det sekundære. Desuden kan vægt på ensartethed føre til centralisering og måske endda bremse lokale fremskridt og innovation på hospitalsniveau, selv om dette med et strengt fokus på standardisering ikke er en umulig opgave.
Som det kan ses i afsnit 4, indeholder selv højt ansete danske registre fejlagtige og mangelfulde data. Da selv disse benchmarkdata er fejlbehæftede, er det sandsynligt, at blandet datakvalitet er universel på tværs af lande og dermed kan udgøre en akilleshæl for AI og personlig medicin.
Den danske situation: Er fortræffelighed i datakvalitet godt nok til AI?
Danske sundhedsregistre og civile registre anses af nogle for at være blandt de bedste og mest komplette (6). Den danske regering og det nationale sundhedssystem har gennem et halvt århundrede registreret hele befolkningen og har således givet adgang til detaljerede patientdata, hvilket har gjort det lettere at foretage epidemiologisk og farmaceutisk forskning. I denne sammenhæng kan Danmark som nation i visse henseender betragtes som én komplet kohorte (21), hvilket kan være ideelt for udviklingen af personlig medicin (22).
Opbygningen af store databaser i Danmark er blevet lettet ved hjælp af det danske CPR-register. CPR er et administrativt register, som fra 1972 har indeholdt oplysninger på individniveau om alle personer, der er bosiddende i Danmark og Grønland. I januar 2014 havde CPR kumulativt registreret 9,5 mio. personer og mere end 400 mio. personår som opfølgning (23). Et unikt ti-cifret civilpersonsregisternummer, som tildeles alle personer i CPR, gør det muligt at foretage en entydig sammenkædning af danske registre på individniveau, hvilket gør det muligt at fodre mere end 160 folkesundhedsdatabaser løbende direkte fra de elektroniske patientjournaler (EHR).
Det danske EHR er baseret på distribuerede databaser, der er forbundet i en digital infrastruktur, hvor sundhedspersoner kan dele og få adgang til patientdata på tværs af organisatoriske grænser. Et forenklet kort over den danske digitale infrastruktur for sundhedsdata er vist i figur 1. Udviklingen af den digitale infrastruktur har været i gang i mere end et kvart århundrede baseret på en kombination af lovbestemte indberetningsforpligtelser og databehandleraftaler mellem sundhedsoperatørerne. Udviklingen af denne digitale infrastruktur har ikke været systematisk planlagt, og det er derfor ikke let at skabe et samlet overblik.
Figur 1. Dansk digital infrastruktur for sundhedsdata. Figuren viser forskellige datakategorier opdelt i regionale, interregionale og nationale systemer. Kildesystemerne, der udgør den digitale infrastruktur, kan kategoriseres i forhold til fire datakategorier. (1) data indsamlet til brug i patientjournalen, (2) data indsamlet til brug for administration af patientforløb, (3) data om lægemidler til brug for administration af lægemidler og (4) parakliniske data. Som det fremgår, er det et grundlæggende princip, at de samme sundhedsdata normalt opbevares både regionalt, nationalt og i nogle tilfælde også interregionalt. På denne måde er datakontrollen delt mellem regionerne og staten. Denne dataredundans kan være bevidst, men kan også være tilfældig, da infrastrukturen er vokset organisk gennem mange år. Figuren er medtaget i en lærebog af Kristensen (24). EHR: elektronisk patientjournal; PRO-data: patientregistrerede resultater; CQD: kliniske kvalitetsdatabaser; NPR: nationalt patientregister; PAS: patientadministrative systemer; CMC: fælles medicinkort; DAR: lægemiddeladministrationsregister; DSR: lægemiddelstatistikregister; NGC: nationalt genomcenter.
Inden for infrastrukturen vil dataene i sagens natur være af forskellig kvalitet. Dette illustreres af en analyse af datakvaliteten fra 2019, som viste, at data om danske lægeordinationer indeholder mange og hyppige fejlregistreringer (25). Ligeledes havde 12 % af patienterne i det danske diabetesregister ikke diabetes (26, 27), og i et dansk register over medfødte hjertesygdomme var 36 % af diagnoserne fejlklassificeret (28). Dette gælder ikke kun for Danmark. I en undersøgelse, der omfattede patienter fra 20 lande, havde 62 % af de personer, der blev registreret som havende kronisk obstruktiv lungesygdom, i virkeligheden ikke denne sygdom (29).
Datadeling betyder, at fejl automatisk overføres inden for den digitale infrastruktur (figur 1). Da it-systemer ofte udvikles over tid, vil data ofte blive tilføjet, fjernet og omklassificeret. Denne proces kan resultere i datamangler og ukorrekte registreringer. En yderligere hindring for AI er, at fejl i danske sundhedsregistre aldrig korrigeres direkte. I stedet foretages rettelser, hvis de foretages, gennem senere supplerende noter. Derfor bevares og akkumuleres fejlagtige data i journalen, hvilket hæmmer AI.
Ophobningen af falske diagnoser og fund bør give anledning til stor bekymring, når de kombineres med AI. Kliniske beslutningsstøtteværktøjer, der er fodret med akkumulerede falske diagnoser og resultater, kan føre til alvorlig overbehandling af patienter og dermed omgøre udsigterne til, at AI er gavnlig for sundhedsøkonomien. Det modsatte kan således meget vel blive tilfældet (30).
Lovgivning om anvendelse af sundhedsdata til kunstig intelligens
I Danmark er AI til medicinske formål reguleret af EU-lovgivningen. Medicinsk udstyr defineres i EU-lovgivningen som ethvert instrument, apparat, udstyr, software, implantat, reagens, materiale eller anden genstand, som producenten har bestemt til at blive anvendt alene eller i kombination til mennesker til medicinske formål (31, 32). Medicinsk udstyr omfatter således både selvstændige AI-applikationer, der fungerer uafhængigt af hardware, og AI-applikationer, der er integreret i et medicinsk udstyr.
De medicinske formål er bredt formuleret i forordningerne, og det er op til medlemsstaterne at afgøre, om en software skal betragtes som medicinsk udstyr (33). Det er dog kun applikationer, der er beregnet til medicinske formål, der skal tages i betragtning (34). Desuden skal det medicinske udstyr omfatte funktioner, der går ud over lagring, visning og deling af sundhedsdata, hvilket betyder, at en computer ikke er et medicinsk udstyr. F.eks. betragtes diagnostiske applikationer, der anvendes i billedbehandlingssoftware til at scanne billeder og data fra flere patienter, som medicinsk udstyr. Derimod betragtes applikationer, der på grundlag af oplysninger om lægemiddelordinationer søger efter oplysninger om bivirkninger i videnskabelig litteratur og databaser, ikke som medicinsk udstyr.
Det er medlemsstaternes ansvar at vurdere fra sag til sag, om en given AI-applikation skal betragtes som medicinsk udstyr. Forordningerne giver medlemsstaterne beføjelse til at fastsætte sikkerheds-, kvalitets- og præstationskrav i den nationale lovgivning for produkter uden medicinsk formål, hvis de har egenskaber og risikoprofiler, der ligner dem for medicinsk udstyr (31). Anvendelser, der strengt taget ikke falder ind under definitionen af medicinsk udstyr, kan derfor ikke desto mindre kategoriseres som medicinsk udstyr i den nationale lovgivning.
Et CE-mærke (Conformité Européenne) på et produkt viser, at producenten eller importøren overholder den relevante EU-lovgivning, og kun medicinsk udstyr, der opfylder kravene til CE-mærkning, må markedsføres. Kravene til godkendelse varierer alt efter de risici, der er forbundet med det pågældende udstyr. Jo højere risikoklasse, jo strengere er sikkerhedskravene. Forordningen om medicinsk udstyr opererer med fire risikoklasser, der betegnes med I, IIa, IIb og III (31). Klasse I er forbundet med den laveste risiko, mens klasse III er forbundet med den højeste risiko. I denne klassificering, som er ny, er stort set al software klassificeret i klasse IIa, men der er dog flere undtagelser herfra. Producenten er alene ansvarlig for denne risikoklassificering. Godkendelsen er baseret på en gennemgang af dokumentationen for den pågældende software, og der kræves kun kliniske test på mennesker for klasse III-udstyr og kun under visse omstændigheder. Der er ingen EU-krav til kvaliteten af de sundhedsdata, der anvendes til udvikling af medicinske AI-applikationer.
De retlige rammer for kunstig intelligens, og navnlig kunstig intelligens inden for sundhedssektoren, indeholder således ikke specifikke krav til kvaliteten af de data, der anvendes til træning og input i kunstig intelligens.
Konklusion: Mod en minimering af diskrimination på grund af fejlagtige data
Som det fremgår, kan fejlagtige sundhedsdata få alvorlige konsekvenser for AI og dermed for patienterne.
Der bør derfor indføres mekanismer, der beskytter patienternes rettigheder og mindsker risikoen for ukorrekt behandling af bestemte patienter ved brug af AI. Dette kan til en vis grad håndteres ved at stille krav om menneskelig vurdering af AI-applikationer.
Et krav om menneskelig kontrol sikrer, at mange fejlagtige afgørelser ofte kan udelukkes ved en menneskelig vurdering. Dette er imidlertid ikke tilstrækkeligt, da brugen af automatiseret beslutningsstøtte kan føre til overdreven afhængighed af støttesystemet og dermed til afvikling af eksperter (35, 36). Andre foranstaltninger, såsom regulering af kvaliteten af inputdata til AI og/eller formelle krav om randomiserede kliniske forsøg med AI før klinisk anvendelse, kunne mindske afhængigheden af menneskelig kontrol.
Ved udvikling af AI og personlig medicin vil fokus på data af højeste kvalitet, dvs. parakliniske data og digitale billeder, sandsynligvis føre til de hurtigste fremskridt. Desuden er der behov for relevant lovgivning for at give bedre mulighed for at korrigere kildedata, når de anvendes til AI. Der er også et stort behov for automatiserede metoder til fejlkorrektion med høj kapacitet (37) inden for områder med mangelfulde data, hvis AI skal gennemføres med succes. Det er imidlertid sandsynligt, at sådanne automatiserede processer kun delvist kan korrigere fejl og faktisk selv lejlighedsvis kan forårsage fejl. I mange tilfælde vil patienterne således selv være dem, der er bedst i stand til at finde fejl, og med store datasæt vil patienterne ofte være de eneste, der har ressourcerne til at finde fejl. Patienterne bør derfor have enkel adgang til de inputdata, der anvendes i AI-applikationen. Da ikke alle patienter vil rette fejl, og mange fejl ikke er indlysende for lægfolk, er der behov for mange supplerende strategier til at rette fejlagtige data.
Desuden er der behov for et retsgrundlag for korrektion af fejlagtige data. I Danmark har Folketinget således indledt et lovgivningsarbejde om, hvordan man kan rette alvorlige fejl i patientjournaler (38), og i maj 2022 blev der fremlagt et EU-forslag til en Forordning om det europæiske Rum for Sundhedsdata [Regulation on the European Health Data Space ] (39), som indfører patienters ret til at anmode om ændring af fejlagtige data online (39, 40).
Som vi har vist, er danske sundhedsregistre ofte fejlbehæftede, og i denne sammenhæng antyder vi, at mange kliniske data fra den virkelige verden i sagens natur er fejlagtige, eller i det mindste kun korrekte efter lægens bedste viden. Fejlene kan faktisk være så talrige, at det aldrig vil være muligt at rette dem alle. Det kan også være, at træning af en algoritme på perfekt organiserede data kan gøre den uegnet til den virkelige verden.
Det kan konkluderes, at hvis problemerne med fejlagtige sundhedsdata ikke løses ordentligt, kan fejlagtige data faktisk blive en akilleshæl for klinisk anvendt AI. For at imødegå sådanne problemer foreslår vi tre trin: (1) AI bør fokusere på data af højeste kvalitet, i det væsentlige parakliniske data og digitale billeder, (2) patienterne bør have enkel adgang til de inputdata, der fodrer AI’en, og have ret til at anmode om ændringer af fejlagtige data, og (3) automatiserede højtydende metoder til fejlkorrektion bør gennemføres på områder med fejlagtige data, når det er muligt.
Forfatterbidrag
TK: konceptualisering, skrivning – originaludkast (Introduktion, AI: Træning, validering og afprøvning, Klinisk anvendelse af AI og problemet med fejlagtig EHR, Den danske situation: Er fortræffelig datakvalitet god nok til AI?, Konklusion: Mod en minimering af diskrimination på grund af fejlagtige data, visualisering, gennemgang og redigering (Figur 1), KK: konceptualisering, skrivning – originaludkast (Lovgivning om anvendelse af sundhedsdata til AI), visualisering – originalkonceptualisering og originaludkast (Figur 1) og skrivning – gennemgang og redigering JU: visualisering – gennemgang og redigering (Figur 1) og skrivning – gennemgang og redigering. IB: konceptualisering og skrivning – gennemgang og redigering. Alle forfattere bidrog til artiklen og godkendte den indsendte version.
Interessekonflikter
Forfatterne erklærer, at forskningen blev udført uden kommercielle eller økonomiske forbindelser, der kunne opfattes som en potentiel interessekonflikt.
Udgiverens note
Alle påstande i denne artikel er udelukkende forfatternes egne og repræsenterer ikke nødvendigvis deres tilknyttede organisationers påstande eller forlagets, redaktørernes og anmeldernes påstande. Ethvert produkt, der måtte blive evalueret i denne artikel, eller enhver påstand, der måtte blive fremsat af dets producent, garanteres eller godkendes ikke af udgiveren.
Oversættelse og redigering ved May Day, august 2022. Bemærk, at oversættelsen ikke er blevet forelagt forfatterne til godkendelse og udelukkende er May Days egen oversættelse. Forklarende links og firkantede parenteser er indsat af May Days redaktrice.
Kilde: https://www.frontiersin.org/articles/10.3389/fdgth.2022.862095/full
References
1. Liu X, Faes L, Kale AU, Wagner SK, Fu DJ, Bruynseels A, et al. A comparison of deep learning performance against health-care professionals in detecting diseases from medical imaging: a systematic review and meta-analysis. Lancet Digit Health. (2019) 1:e271–97. doi: 10.1016/S2589-7500(19)30123-2
PubMed Abstract | CrossRef Full Text | Google Scholar
2. De Bruyne S, Speeckaert MM, Van Biesen W, Delanghe JR. Recent evolutions of machine learning applications in clinical laboratory medicine. Crit Rev Clin Lab Sci. (2020) 12:1–22. doi: 10.1080/10408363.2020.1828811
PubMed Abstract | CrossRef Full Text | Google Scholar
3. Erickson BJ, Korfiatis P, Akkus Z, Kline TL. Machine learning for medical imaging. Radiographics. (2017) 37:505–15. doi: 10.1148/rg.2017160130
PubMed Abstract | CrossRef Full Text | Google Scholar
4. Olsen RM, Aasvang EK, Meyhoff CS, Dissing Sorensen HB. Towards an automated multimodal clinical decision support system at the post anesthesia care unit. Comput Biol Med. (2018) 101:15–21. doi: 10.1016/j.compbiomed.2018.07.018
PubMed Abstract | CrossRef Full Text | Google Scholar
5. Miles J, Turner J, Jacques R, Williams J, Mason S. Using machine-learning risk prediction models to triage the acuity of undifferentiated patients entering the emergency care system: a systematic review. Diagn Progn Res. (2020) 4:16. doi: 10.1186/s41512-020-00084-1
PubMed Abstract | CrossRef Full Text | Google Scholar
6. Frank L. Epidemiology. When an entire country is a cohort. Science. (2000) 287:2398–9. doi: 10.1126/science.287.5462.2398
PubMed Abstract | CrossRef Full Text | Google Scholar
7. Kristiansen TB. Erroneous data and drug industry bias can impair machine learning algorithms. BMJ. (2019) 367:l6042. doi: 10.1136/bmj.l6042
PubMed Abstract | CrossRef Full Text | Google Scholar
8. Schmidt CMD. Anderson breaks with IBM watson, raising questions about artificial intelligence in oncology. J Natl Cancer Inst. (2017) 109:4–5. doi: 10.1093/jnci/djx113
PubMed Abstract | CrossRef Full Text | Google Scholar
9. Vulsteke C, del Pilar Ortega Arevalo M, Mouton C. Artificial intelligence for the oncologist: hype, hubris or reality? Belg J Med Oncol. (2018) 12:330–3. Available online at: https://www.ariez.nl/wp-content/uploads/2018/12/BJMO7_2018_Art._Vulsteke.pdf
10. Gareth J, Witten D, Hastie T. Tibshirani: an introduction to statistical learning: with applications in R. Switzerland. Springer Nature. (2021) 21:197–98.
11. Alpaydin E. Introduction to Machine Learning. Cambridge: MIT Press (2014). p. 11–13.
12. Esteva A, Kuprel B, Novoa RA, Ko J, Swetter SM, Blau HM, et al. Dermatologist-level classification of skin cancer with deep neural networks. Nature. (2017) 542:115–8. doi: 10.1038/nature21056
PubMed Abstract | CrossRef Full Text | Google Scholar
13. Sharma A, Colonna G. System-wide pollution of biomedical data: consequence of the search for hub genes of hepatocellular carcinoma without spatiotemporal consideration. Mol Diagn Ther. (2021) 25:9–27. doi: 10.1007/s40291-020-00505-3
PubMed Abstract | CrossRef Full Text | Google Scholar
14. Zhao J, Wang T, Yatskar M, Ordonez V, Chang KW. Men also like shopping: reducing gender bias amplification using corpus-level constraint. arXiv. (2017). doi: 10.48550/arXiv.1707.09457
CrossRef Full Text | Google Scholar
15. Gianfrancesco MA, Tamang S, Yazdany J, Schmajuk G. Potential biases in machine learning algorithms using electronic health record data. JAMA Intern Med. (2018) 178:1544–7. doi: 10.1001/jamainternmed.2018.3763
PubMed Abstract | CrossRef Full Text | Google Scholar
16. Cirillo D, Catuara-Solarz S, Morey C, Guney E, Subirats L, Mellino S, et al. Sex and gender differences and biases in artificial intelligence for biomedicine and healthcare. NPJ Digit Med. (2020) 3:81. doi: 10.1038/s41746-020-0288-5
PubMed Abstract | CrossRef Full Text | Google Scholar
17. Koenecke A, Nam A, Lake E, Nudell J, Quartey M, Mengesha Z, et al. Racial disparities in automated speech recognition. Proc Natl Acad Sci USA. (2020) 117:7684–9. doi: 10.1073/pnas.1915768117
PubMed Abstract | CrossRef Full Text | Google Scholar
18. Obermeyer Z, Powers B, Vogeli C, Mullainathan S. Dissecting racial bias in an algorithm used to manage the health of populations. Science. (2019) 366:447–53. doi: 10.1126/science.aax2342
PubMed Abstract | CrossRef Full Text | Google Scholar
19. European Union. Agency for Fundamental Rights. Data Quality and Artificial Intelligence: Mitigating Bias and Error to Protect Fundamental Rights. Vienna: Publications Office of the European Union (2019).
20. Brandslund I, Poulsen JH, Petersen PH, Pedersen ML, Gerdes LU, Plum I. Ens referenceintervaller og harmoniserede resultater inden for klinisk biokemi i de nordiske lande–der er lys forude [Uniform reference intervals and harmonised results in clinical biochemistry in Scandinavia–light ahead]. Ugeskr Laeger. (2007) 169:1216–8.
21. Episode 2: When an entire country is a cohort – unique biobanks supporting personalized medicine. 2021 may 6. Invest in Denmark – Ministry of Foreign Affairs of Denmark. Available online at: https://investindk.com/webinar-ondemand/webinar-series-on-personalized-medicine/unique-biobanks-supporting-personalized-medicine (accessed June 04, 2022)
22. When a Country Cannot be a Cohort: Challenges of Implementing a Large Precision Medicine Cohort Study in the United States. Posted on March 23, 2015 by Muin J Khoury, Director, Office of Public Health Genomics, Centers for Disease Control and Prevention. CDC 2015. Available online at: https://blogs.cdc.gov/genomics/2015/03/23/when-a-country/ (accessed June 04, 2022).
23. Schmidt M, Pedersen L, Sørensen HT. The Danish civil registration system as a tool in epidemiology. Eur J Epidemiol. (2014) 29:541–9. doi: 10.1007/s10654-014-9930-3
PubMed Abstract | CrossRef Full Text | Google Scholar
24. Kristensen K. Persondata og Forskning. Copenhagen: Djøfforlag (2022). 325 p.
25. FMK Kvalitetsanalyse. ANALYSERESULTATER – Regioner, Kommuner og Almen praksis. Sundhedsdatastyrelsen 2019. (CMC analysis of quality 2019, The Danish Health Data Authority, 2019). Copenhagen: Djøfforlag (2019).
26. Greibe T. Fejlkodning af Diabetes II og Datafangst – Eller de 10 Små Cyklister Med Sukkersyge, Der Endte Med At Være 81/2. Copenhagen: Månedsskrift For Almen Praksis (2014). Available online at: https://maanedsskriftet.dk/shop/manedsskriftet/919-10985.html
27. Nielsen AA, Christensen H, Lund ED, Christensen C, Brandslund I, Green A. Diabetes mortality differs between registers due to various disease definitions. Dan Med J. (2014) 61:A4840.
PubMed Abstract | Google Scholar
28. Ellesøe SG, Jensen AB, Ängquist LH, Hjortdal VE, Larsen LA, Brunak S. How suitable are registry data for recurrence risk calculations? Validation of diagnoses on 1,593 families with congenital heart disease. World J Pediatr Congenit Heart Surg. (2016) 7:169–77. doi: 10.1177/2150135115615786
PubMed Abstract | CrossRef Full Text | Google Scholar
29. Sator L, Horner A, Studnicka M, Lamprecht B, Kaiser B, McBurnie MA, et al. Overdiagnosis of COPD in subjects with unobstructed spirometry: a BOLD analysis. Chest. (2019) 156:277–88. doi: 10.1016/j.chest.2019.01.015
PubMed Abstract | CrossRef Full Text | Google Scholar
30. Vogt H, Green S, Ekstrøm CT, Brodersen J. How precision medicine and screening with big data could increase overdiagnosis. BMJ. (2019) 366:l5270. doi: 10.1136/bmj.l5270
PubMed Abstract | CrossRef Full Text | Google Scholar
31. Regulation (EU) 2017/745 of the European Parliament and of the Council 5 April 2017 on Medical Devices. Official Journal of the European Union Luxembourg: Publications Office of the European Union. (2017).
32. Regulation (EU) 2017/746 of the European Parliament and of the Council 5 April 2017 on in vitro diagnostic medical devices. Official Journal of the European Union. (2017).
33. Purtova N. eHealth spare parts as a service: modular ehealth solutions and medical device reform. Eur J Health Law. (2017) 4:463–86. doi: 10.1163/15718093-12341430
CrossRef Full Text | Google Scholar
34. P7_TA 0266. Medical Devices. Official Journal of the European Union. C408/68. (2014). Available online at: https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX%3A52014AP0266 (accessed June 04, 2022).
35. Cabitza F, Rasoini R, Gensini GF. Unintended consequences of machine learning in medicine. JAMA. (2017) 318:517–8. doi: 10.1001/jama.2017.7797
PubMed Abstract | CrossRef Full Text | Google Scholar
36. Tsai TL, Fridsma DB, Gatti G. Computer decision support as a source of interpretation error: the case of electrocardiograms. J Am Med Inform Assoc. (2003) 10:478–83. doi: 10.1197/jamia.M1279
PubMed Abstract | CrossRef Full Text | Google Scholar
37. Jørgensen IF, Brunak S. Time-ordered comorbidity correlations identify patients at risk of mis- and overdiagnosis. NPJ Digit Med. (2021) 4:12. doi: 10.1038/s41746-021-00382-y
PubMed Abstract | CrossRef Full Text | Google Scholar
38. Hartlev M. Juridisk vurdering af mulige modeller for sletning og/eller blokering af fejlagtige oplysninger. Svar på § 20-spørgsmål S 243 Om at rette alvorlige fejl i patientjournaler. Bilag til svar. (2019). Available online at: https://www.ft.dk/samling/20182/spoergsmaal/s243/svar/1590456/2078118.pdf (accessed June 04, 2022).
39. Directorate-General for Health Food Safety. Proposal for a Regulation of the European Parliament and of the Council on the European Health Data Space. COM. (2022). Available online at: https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX%3A52022PC0197 (accessed June 04, 2022).
40. Directorate-General for Health Food Safety. Communication from the Commission – A European Health Data Space: Harnessing the Power of Health Data for People, Patients and Innovation. COM. (2022). Available online at: https://ec.europa.eu/health/publications/communication-commission-european-health-data-space-harnessing-power-health-data-people-patients-and_en (accessed June 04, 2022).
Skriv et svar