Prema novoj studiji, modeli umjetne inteligencije (AI) ne uspijevaju postaviti odgovarajuću ranu dijagnozu u više od 80% slučajeva, što ukazuje na to da još uvijek nisu sigurni za nenadziranu kliničku upotrebu.
Generativnoj umjetnoj inteligenciji (AI) još uvijek nedostaju procesi rasuđivanja potrebni za sigurnu kliničku upotrebu, otkrila je nova studija.
AI chatbotovi su poboljšali svoju dijagnostičku tačnost kada su im predstavljene sveobuhvatne kliničke informacije, ali i dalje nisu uspjeli da postave odgovarajuću diferencijalnu dijagnozu u više od 80% slučajeva, prema istraživačima iz Mass General Brigham, neprofitne bolnice i istraživačke mreže sa sjedištem u Bostonu i jednog od najvećih zdravstvenih sistema u Sjedinjenim Državama.
Rezultati studije, objavljeni u medicinskom časopisu JAMA Network Open, otkrili su da modeli velikih jezika (LLM) ne ispunjavaju uslove potrebne za kliničku upotrebu, piše Euronews Health.
„Uprkos kontinuiranim poboljšanjima, standardni modeli velikih jezika nisu spremni za nenadziranu primjenu na kliničkom nivou“, rekao je Marc Succi, koautor studije.
Dodao je da umjetna inteligencija još uvijek ne može replicirati diferencijalnu dijagnozu, koja je ključna za kliničko rasuđivanje i koju on smatra "umjetnošću medicine".
Diferencijalna dijagnoza je prvi korak za zdravstvene radnike u identifikaciji stanja, odvajajući ga od drugih sa sličnim simptomima.
Kako su modeli testirani
Istraživački tim je analizirao funkcioniranje 21 LLM-a, uključujući najnovije dostupne verzije Claudea, DeepSeeka, Geminija, GPT-a i Groka.
Procijenili su LLM-ove na 29 standardiziranih kliničkih vinjeta koristeći novo razvijeni alat pod nazivom PrIME-LLM.
Alat procjenjuje sposobnost modela u različitim fazama kliničkog rasuđivanja: provođenje početne dijagnoze, naručivanje odgovarajućih testova, dolazak do konačne dijagnoze i planiranje liječenja.
Kako bi simulirali razvoj kliničkih slučajeva, istraživači su postepeno unosili informacije u modele, počevši od osnova kao što su dob pacijenta, spol i simptomi, prije nego što su dodali nalaze fizičkog pregleda i laboratorijske rezultate.
Diferencijalna dijagnoza je ključna u stvarnom kliničkom okruženju za prelazak na sljedeći korak. Međutim, u studiji su modelima date dodatne informacije kako bi mogli preći na sljedeću fazu čak i ako ne uspiju u koraku diferencijalne dijagnoze.
Istraživači su otkrili da su jezički modeli postigli visoku tačnost u konačnim dijagnozama, ali su se loše pokazali u generiranju diferencijalnih dijagnoza i snalaženju u neizvjesnosti.
Autorica studije Arya Rao istakla je da se postupnim ocjenjivanjem LLM-ova, istraživanje ne tretira samo kao kandidate za polaganje ispita, već ih stavlja u poziciju doktora.
„Ovi modeli su odlični u postavljanju konačne dijagnoze nakon što su podaci kompletni, ali se muče na otvorenom početku slučaja, kada nema mnogo informacija“, dodala je.
Istraživači su otkrili da svi modeli nisu uspjeli dati odgovarajuću diferencijalnu dijagnozu u više od 80% slučajeva.
Pri konačnoj dijagnozi, stope uspjeha kretale su se od oko 60% do preko 90%, ovisno o modelu.
Većina LLM-ova pokazala je poboljšanu tačnost kada su, pored teksta, dostavljeni i laboratorijski rezultati i slike.
Rezultati su identificirali klaster s najboljim performansama koji je uključivao Grok 4, GPT-5, GPT-4.5, Claude 4.5 Opus, Gemini 3.0 Flash i Gemini 3.0 Pro.
Medicinski stručnjaci su i dalje ključni
Međutim, autori su primijetili da uprkos poboljšanjima zasnovanim na verzijama i prednostima modela optimiziranih za rasuđivanje, standardni LLM-ovi još uvijek nisu postigli nivo inteligencije potreban za sigurnu primjenu i ostaju ograničeni u demonstraciji naprednog kliničkog rasuđivanja.
„Naši rezultati potvrđuju da veliki jezički modeli u zdravstvu i dalje zahtijevaju 'čovjeka u toku' i vrlo strog nadzor“, istakla je Succi.
Susana Manso García, članica radne grupe za umjetnu inteligenciju i digitalno zdravlje Španskog društva za porodičnu i društvenu medicinu, koja nije bila uključena u studiju, rekla je da nalazi nose jasnu poruku javnosti.
„Sama studija insistira na tome da se oni [jezički modeli] ne bi trebali koristiti za donošenje kliničkih odluka bez nadzora. Stoga, iako umjetna inteligencija predstavlja obećavajući alat, ljudska klinička prosudba ostaje nezamjenjiva“, rekla je.
„Preporuka javnosti je da ove tehnologije koristi s oprezom i, kada se suoči s bilo kakvim zdravstvenim problemom, uvijek se konsultuje sa zdravstvenim radnikom.“