bladsybanier

nuus

Die Groot Taalmodel (LLM) kan oorredende artikels skryf gebaseer op vinnige woorde, professionele vaardigheidseksamens slaag, en pasiëntvriendelike en empatiese inligting skryf. Benewens die bekende risiko's van fiksie, broosheid en onakkurate feite in LLM, word ander onopgeloste kwessies egter geleidelik die fokus, soos KI-modelle wat potensieel diskriminerende "menslike waardes" in hul skepping en gebruik bevat, en selfs al vervaardig LLM nie meer inhoud nie en elimineer dit duidelik skadelike uitsetresultate, kan "LLM-waardes" steeds van menslike waardes afwyk.

 

Talle voorbeelde illustreer hoe die data wat gebruik word om KI-modelle op te lei, individuele en sosiale waardes kodeer, wat binne die model kan stol. Hierdie voorbeelde behels 'n reeks toepassings, insluitend outomatiese interpretasie van borskas-X-strale, klassifikasie van velsiektes en algoritmiese besluitneming rakende mediese hulpbrontoewysing. Soos in 'n onlangse artikel in ons tydskrif genoem, kan bevooroordeelde opleidingsdata die waardes en vooroordele wat in die samelewing teenwoordig is, versterk en openbaar. Inteendeel, navorsing het ook getoon dat KI gebruik kan word om vooroordeel te verminder. Navorsers het byvoorbeeld diep leermodelle op knie-X-straalfilms toegepas en faktore ontdek wat deur standaard ernsaanwysers (gegradeer deur radioloë) binne die kniegewrig gemis is, waardeur onverklaarbare pynverskille tussen swart en wit pasiënte verminder word.

Alhoewel al hoe meer mense die vooroordeel in KI-modelle besef, veral in terme van opleidingsdata, word baie ander toegangspunte tot menslike waardes nie genoeg aandag gegee in die ontwikkelings- en ontplooiingsproses van KI-modelle nie. Mediese KI het onlangs indrukwekkende resultate behaal, maar tot 'n groot mate het dit nie eksplisiet menslike waardes en hul interaksie met risikobepaling en probabilistiese redenasie in ag geneem nie, en dit is ook nie gemodelleer nie.

 

Om hierdie abstrakte konsepte te konkretiseer, verbeel jou dat jy 'n endokrinoloog is wat rekombinante menslike groeihormoon moet voorskryf vir 'n 8-jarige seun wat onder die 3de persentiel van sy ouderdom is. Die seun se gestimuleerde menslike groeihormoonvlak is onder 2 ng/mL (verwysingswaarde, >10 ng/mL, verwysingswaarde vir baie lande buite die Verenigde State is >7 ng/mL), en sy menslike groeihormoonkoderingsgeen het seldsame inaktiveringsmutasies opgespoor. Ons glo dat die toepassing van menslike groeihormoonterapie voor die hand liggend en onbetwisbaar in hierdie kliniese omgewing is.

Die toepassing van menslike groeihormoonterapie in die volgende scenario's kan kontroversie veroorsaak: 'n 14-jarige seun se lengte was nog altyd in die 10de persentiel van sy maats, en die piek van menslike groeihormoon na stimulasie is 8 ng/ml. Daar is geen bekende funksionele mutasies wat lengte kan beïnvloed nie, en ook geen ander bekende oorsake van kort gestalte nie, en sy beenouderdom is 15 jaar oud (d.w.s. geen ontwikkelingsvertraging nie). Slegs 'n deel van die kontroversie is te wyte aan verskille in die drempelwaardes wat deur kundiges bepaal is op grond van dosyne studies rakende menslike groeihormoonvlakke wat gebruik word vir die diagnose van geïsoleerde groeihormoontekort. Ten minste net soveel kontroversie spruit uit die risiko-voordeelbalans van die gebruik van menslike groeihormoonterapie vanuit die perspektiewe van pasiënte, pasiëntouers, gesondheidsorgpersoneel, farmaseutiese maatskappye en betalers. Pediatriese endokrinoloë kan die seldsame nadelige effekte van daaglikse inspuitings van groeihormoon vir 2 jaar opweeg teen die waarskynlikheid van geen of slegs minimale groei in volwasse liggaamsgrootte in vergelyking met die hede. Seuns mag glo dat selfs al neem hul lengte slegs met 2 cm toe, dit die moeite werd is om groeihormoon in te spuit, maar die betaler en farmaseutiese maatskappy kan verskillende sienings hê.

 

Ons neem kreatinien-gebaseerde eGFR as voorbeeld, wat 'n wydgebruikte nierfunksie-aanwyser is vir die diagnose en stadiëring van chroniese niersiekte, die bepaling van nieroorplantings- of skenkingsvoorwaardes, en die bepaling van reduksiekriteria en kontraindikasies vir baie voorskrifmedisyne. EGFR is 'n eenvoudige regressievergelyking wat gebruik word om die gemete glomerulêre filtrasietempo (mGFR) te skat, wat 'n verwysingsstandaard is, maar die evalueringsmetode is relatief omslagtig. Hierdie regressievergelyking kan nie as 'n KI-model beskou word nie, maar dit illustreer baie beginsels oor menslike waardes en probabilistiese redenasie.

Die eerste toegangspunt vir menslike waardes om eGFR in te voer, is wanneer data gekies word vir die passing van vergelykings. Die oorspronklike tou wat gebruik is om die eGFR-formule te ontwerp, bestaan ​​meestal uit swart en wit deelnemers, en die toepaslikheid daarvan op baie ander etniese groepe is nie duidelik nie. Die daaropvolgende toegangspunte vir menslike waardes in hierdie formule sluit in: die keuse van mGFR-akkuraatheid as die primêre doelwit vir die evaluering van nierfunksie, wat 'n aanvaarbare vlak van akkuraatheid is, hoe om akkuraatheid te meet, en die gebruik van eGFR as 'n drempel vir die aanvang van kliniese besluitneming (soos die bepaling van toestande vir nieroorplanting of die voorskryf van medikasie). Laastens, wanneer die inhoud van die invoermodel gekies word, sal menslike waardes ook in hierdie formule ingaan.

Byvoorbeeld, voor 2021 stel riglyne voor dat die kreatinienvlakke in die eGFR-formule aangepas word op grond van die pasiënt se ouderdom, geslag en ras (slegs geklassifiseer as swart of nie-swart individue). Die aanpassing gebaseer op ras is daarop gemik om die akkuraatheid van die mGFR-formule te verbeter, maar in 2020 het groot hospitale die gebruik van rasgebaseerde eGFR begin bevraagteken, met redes soos die vertraging van die pasiënt se geskiktheid vir oorplanting en die konkretisering van ras as 'n biologiese konsep. Navorsing het getoon dat die ontwerp van eGFR-modelle in terme van ras diepgaande en wisselende impakte op akkuraatheid en kliniese uitkomste kan hê; Daarom weerspieël die selektiewe fokus op akkuraatheid of die fokus op 'n gedeelte van die uitkomste waarde-oordele en kan dit deursigtige besluitneming verbloem. Laastens het die nasionale werkgroep 'n nuwe formule voorgestel wat hersien is sonder om ras in ag te neem om prestasie- en billikheidskwessies te balanseer. Hierdie voorbeeld illustreer dat selfs 'n eenvoudige kliniese formule baie toegangspunte tot menslike waardes het.

Dokter met virtuele realiteit in operasiesaal in hospitaal. Chirurg analiseer pasiënt se harttoetsresultaat en menslike anatomie op tegnologiese digitale futuristiese virtuele koppelvlak, digitale holografiese, innoverende in wetenskap en medisyne konsep.

In vergelyking met kliniese formules met slegs 'n klein aantal voorspellende aanwysers, kan LLM uit miljarde tot honderde miljarde parameters (modelgewigte) of meer bestaan, wat dit moeilik maak om te verstaan. Die rede waarom ons sê "moeilik om te verstaan" is dat in die meeste LLM's die presiese manier om reaksies deur middel van vraagstelling te ontlok, nie gekarteer kan word nie. Die aantal parameters vir GPT-4 is nog nie aangekondig nie; sy voorganger GPT-3 het 175 miljard parameters gehad. Meer parameters beteken nie noodwendig sterker vermoëns nie, aangesien kleiner modelle wat meer berekeningsiklusse insluit (soos die LLaMA [Large Language Model Meta AI] modelreeks) of modelle wat fyn ingestel is op grond van menslike terugvoer, beter sal presteer as groter modelle. Byvoorbeeld, volgens menslike assessors, presteer die InstrumentGPT-model (’n model met 1,3 miljard parameters) beter as GPT-3 in die optimalisering van modeluitsetresultate.

Die spesifieke opleidingsbesonderhede van GPT-4 is nog nie bekend gemaak nie, maar die besonderhede van vorige generasie modelle, insluitend GPT-3, InstrumentGPT en baie ander oopbron-LLM's, is wel bekend gemaak. Deesdae kom baie KI-modelle met modelkaarte; die evaluerings- en sekuriteitsdata van GPT-4 is gepubliseer in 'n soortgelyke stelselkaart wat deur die modelskeppingsmaatskappy OpenAI verskaf word. Die skepping van LLM kan rofweg in twee fases verdeel word: die aanvanklike voor-opleidingsfase en die fyn afstemmingsfase wat daarop gemik is om die modeluitsetresultate te optimaliseer. In die voor-opleidingsfase word die model voorsien van 'n groot korpus wat die oorspronklike internetteks insluit om dit op te lei om die volgende woord te voorspel. Hierdie oënskynlik eenvoudige "outomatiese voltooiings"-proses lewer 'n kragtige fundamentele model, maar dit kan ook tot skadelike gedrag lei. Menslike waardes sal die voor-opleidingsfase betree, insluitend die seleksie van voor-opleidingsdata vir GPT-4 en die besluit om onvanpaste inhoud soos pornografiese inhoud uit die voor-opleidingsdata te verwyder. Ten spyte van hierdie pogings, is die basiese model dalk steeds nie nuttig of in staat om skadelike uitsetresultate te bevat nie. In die volgende fase van fyn afstemming sal baie nuttige en onskadelike gedrag na vore kom.

In die fyn afstemmingsfase word die gedrag van taalmodelle dikwels diepgaande verander deur middel van gemonitorde fyn afstemming en versterkingsleer gebaseer op menslike terugvoer. In die gemonitorde fyn afstemmingsfase sal gehuurde kontrakteurpersoneel antwoordvoorbeelde vir aanwysingswoorde skryf en die model direk oplei. In die versterkingsleerfase, gebaseer op menslike terugvoer, sal menslike evalueerders die modeluitsetresultate as insetinhoudvoorbeelde sorteer. Dan pas hulle die bogenoemde vergelykingsresultate toe om die "beloningsmodel" te leer en die model verder te verbeter deur middel van versterkingsleer. Verbasende lae-vlak menslike betrokkenheid kan hierdie groot modelle fyn afstem. Byvoorbeeld, die InstrumentGPT-model het 'n span van ongeveer 40 kontrakteurpersoneel gebruik wat van skarefinansieringswebwerwe gewerf is en 'n siftingstoets geslaag wat daarop gemik was om 'n groep annoteerders te kies wat sensitief is vir die voorkeure van verskillende bevolkingsgroepe.

Soos hierdie twee ekstreme voorbeelde, naamlik die eenvoudige kliniese formule [eGFR] en die kragtige LLM [GPT-4], demonstreer, speel menslike besluitneming en menslike waardes 'n onontbeerlike rol in die vorming van modeluitsette. Kan hierdie KI-modelle hul uiteenlopende pasiënt- en geneesheerwaardes vasvang? Hoe om die toepassing van KI in medisyne in die openbaar te lei? Soos hieronder genoem, kan 'n herondersoek van mediese besluitnemingsanalise 'n beginselvaste oplossing vir hierdie kwessies bied.

 

Mediese besluitnemingsanalise is nie aan baie klinici bekend nie, maar dit kan onderskei tussen probabilistiese redenasie (vir onsekere uitkomste wat verband hou met besluitneming, soos of menslike groeihormoon toegedien moet word in die kontroversiële kliniese scenario wat in Figuur 1 getoon word) en oorwegingsfaktore (vir subjektiewe waardes wat aan hierdie uitkomste geheg word, waarvan die waarde gekwantifiseer word as "nut", soos die waarde van 'n 2 cm toename in manlike lengte), wat sistematiese oplossings vir komplekse mediese besluite bied. In besluitnemingsanalise moet klinici eers alle moontlike besluite en waarskynlikhede wat met elke uitkoms geassosieer word, bepaal, en dan die pasiënt (of ander party) se nut wat met elke uitkoms geassosieer word, insluit om die mees geskikte opsie te kies. Daarom hang die geldigheid van besluitnemingsanalise af van of die uitkomsbepaling omvattend is, asook of die meting van nut en die skatting van waarskynlikheid akkuraat is. Ideaal gesproke help hierdie benadering om te verseker dat besluite bewysgebaseerd is en in lyn is met pasiëntvoorkeure, waardeur die gaping tussen objektiewe data en persoonlike waardes vernou word. Hierdie metode is 'n paar dekades gelede in die mediese veld bekendgestel en toegepas op individuele pasiëntbesluitneming en bevolkingsgesondheidsassessering, soos om aanbevelings vir kolorektale kankerondersoek aan die algemene bevolking te verskaf.

 

In mediese besluitnemingsanalise is verskeie metodes ontwikkel om nut te verkry. Die meeste tradisionele metodes verkry direk waarde van individuele pasiënte. Die eenvoudigste metode is om 'n graderingskaal te gebruik, waar pasiënte hul vlak van voorkeur vir 'n sekere uitkoms op 'n digitale skaal (soos 'n lineêre skaal wat wissel van 1 tot 10) assesseer, met die mees ekstreme gesondheidsuitkomste (soos volledige gesondheid en dood) aan beide kante geleë. Die tydruilmetode is nog 'n algemeen gebruikte metode. In hierdie metode moet pasiënte 'n besluit neem oor hoeveel gesonde tyd hulle bereid is om te spandeer in ruil vir 'n tydperk van swak gesondheid. Die standaard dobbelmetode is nog 'n algemeen gebruikte metode om nut te bepaal. In hierdie metode word pasiënte gevra watter van die twee opsies hulle verkies: óf leef 'n sekere aantal jare in normale gesondheid met 'n spesifieke waarskynlikheid (p) (t), en dra die risiko van dood met 'n 1-p waarskynlikheid; óf maak seker dat jy vir t jaar onder kruisgesondheidstoestande leef. Vra pasiënte verskeie kere by verskillende p-waardes totdat hulle geen voorkeur vir enige opsie toon nie, sodat nut bereken kan word op grond van pasiëntresponse.
Benewens metodes wat gebruik word om individuele pasiëntvoorkeure te bepaal, is metodes ook ontwikkel om nuttigheid vir die pasiëntpopulasie te verkry. Veral fokusgroepbesprekings (wat pasiënte bymekaarbring om spesifieke ervarings te bespreek) kan help om hul perspektiewe te verstaan. Om groepnut effektief te aggregeer, is verskeie gestruktureerde groepbesprekingstegnieke voorgestel.
In die praktyk is die direkte bekendstelling van nut in die kliniese diagnose- en behandelingsproses baie tydrowend. As 'n oplossing word opnamevraelyste gewoonlik versprei na ewekansig geselekteerde populasies om nuttellings op populasievlak te verkry. Enkele voorbeelde sluit in die EuroQol 5-dimensionele vraelys, die 6-dimensionele nutsgewig-kortvorm, die Gesondheidsnutindeks en die Kankerspesifieke Europese Kankernavorsings- en Behandelingsorganisasie se Lewenskwaliteitsvraelys Core 30-instrument.


Plasingstyd: 1 Junie 2024