Wiedza medyczna od chatbotów: połowa odpowiedzi budziła zastrzeżenia lekarzy

psychiatraplus.pl 1 miesiąc temu

W badaniu analizowano jakość odpowiedzi popularnych chatbotów na zapytania medyczne. Wyniki wskazują, iż jakość udzielanych odpowiedzi była często niewystarczająca. Modele AI generowały nieistniejące lub zniekształcone cytowania.

Chatboty a wiedza medyczna

Dynamiczny rozwój sztucznej inteligencji sprawił, iż chatboty oparte na modelach językowych stały się powszechnym narzędziem wykorzystywanym w nauce i codziennym życiu, często zastępując tradycyjne wyszukiwarki internetowe. Ich rosnąca popularność w obszarze zdrowia budzi jednak istotne obawy, szczególnie ze względu na ryzyko generowania błędnych informacji.

Czy modele AI przekazują prawdziwe informacje medyczne? Badanie

Naukowcy sprawdzili, jak popularne chatboty radzą sobie z odpowiadaniem na pytania medyczne, zwłaszcza w tematach, w których łatwo o dezinformację. Badanie polegało na ocenie jakości odpowiedzi generowanych przez pięć popularnych chatbotów: Gemini (Google), DeepSeek (High-Flyer), Meta AI (Meta), ChatGPT (OpenAI) oraz Grok (xAI). Każdemu z modeli zadano zestaw 10 pytań obejmujących pięć obszarów tematycznych: onkologię, szczepienia, komórki macierzyste, żywienie oraz wydolność sportową.

W analizie zastosowano podejście ukierunkowane na identyfikację potencjalnych błędów i słabości modeli. W tym celu wykorzystano zarówno pytania otwarte, jak i zamknięte. Zaprojektowano je w taki sposób, aby mogły skłaniać systemy do generowania dezinformacji lub udzielania porad niezgodnych z aktualną wiedzą medyczną.

Odpowiedzi były oceniane przez dwóch niezależnych ekspertów z każdej dziedziny. Klasyfikowali oni treści jako „nieproblematyczne”, „nieco problematyczne” lub „wysoce problematyczne”, opierając się na ustandaryzowanej matrycy kodowej bazującej na jasno określonych, obiektywnych kryteriach. Dodatkowo analizie poddano cytowania źródeł, oceniając ich dokładność oraz kompletność.

Zatrucie bromem w wyniku porady uzyskanej od sztucznej inteligencji

Analiza błędów i wiarygodności chatbotów. AI & dezinformacja medyczna

Niemal połowa odpowiedzi generowanych przez chatboty (49,6%) budziła zastrzeżenia. Spośród nich 30% uznano za „nieco problematyczne”, natomiast 19,6% zaklasyfikowano jako „wysoce problematyczne”. Ogólny poziom jakości odpowiedzi nie różnił się istotnie pomiędzy badanymi modelami. Warto jednak zauważyć, iż jeden z modeli (Grok) znacznie częściej udzielał odpowiedzi poważnie problematycznych.

Pod względem tematycznym modele najlepiej radziły sobie z pytaniami dotyczącymi szczepień i nowotworów. Znacznie gorzej wypadały natomiast w obszarach takich jak komórki macierzyste, żywienie oraz wydolność sportowa, gdzie częściej pojawiały się błędy lub nieprecyzyjne informacje.

Charakterystyczną cechą odpowiedzi była ich wysoka pewność i stanowczość, choćby w przypadkach, gdy zawierały one nieścisłości. Spośród 250 zadanych pytań chatboty odmówiły odpowiedzi jedynie w dwóch przypadkach, przy czym obie odmowy pochodziły od Meta AI.

Istotnym problemem okazała się również jakość przywoływanych źródeł. Bibliografia była często niekompletna.

Chatboty generowały nieistniejące lub zniekształcone cytowania. W rezultacie żaden z nich nie przedstawił w pełni poprawnej listy referencji.

Wyniki badania wykazały zatem, iż korzystanie z tego typu narzędzi w kontekście zdrowia wymaga ostrożności oraz weryfikowania uzyskanych informacji w rzetelnych źródłach.

Wyniki badania opublikowano w czasopiśmie BMJ Open.

Idź do oryginalnego materiału