
Исследователи протестировали пять популярных чат-ботов (ChatGPT, Gemini, Grok, Meta* AI, DeepSeek), задав каждому по 50 медицинских вопросов о раке, вакцинах, питании и спорте. Результаты, опубликованные в BMJ Open, оказались тревожными: 20% ответов признаны крайне проблемными, половина — проблемными, 30% — умеренно проблемными. Ни один бот не дал полностью точный список литературы.
Худшую точность показал Grok: 58% его ответов оказались проблемными. У ChatGPT этот показатель составил 52%, у Meta* AI — 50%. Лучше всего чат-боты отвечали на вопросы о вакцинах и раке, но даже здесь ошибались в каждом четвертом случае.
Наибольшие трудности вызвали темы питания и спортивных добавок. Особую опасность представляют открытые вопросы — например, «какие добавки лучше всего подходят для общего здоровья». Среди них 32% ответов были признаны критически опасными, тогда как среди закрытых вопросов — всего 7%. Люди же в реальности чаще всего задают чат-ботам именно открытые вопросы.

Исследователи попросили каждый чат-бот предоставить десять научных ссылок в подтверждение своих слов. В среднем полнота этих списков составила всего 40%. За 25 попыток ни один бот не выдал полностью достоверный перечень источников. Ошибки варьировались от неверно указанных авторов и неработающих ссылок до полностью выдуманных статей.
Причина в том, что языковые модели ничего не знают, а лишь предсказывают наиболее вероятные слова на основе обучающих данных. В эти данные попадают не только научные статьи, но и форумы, блоги и сомнительные сайты. Исследователи намеренно задавали чат-ботам провокационные вопросы — это стандартный метод стресс-тестирования, который завышает долю ошибок. Тем не менее, бесплатными версиями пользуются миллионы людей, и большинство из них формулирует свои медицинские запросы небрежно и неточно.

К аналогичным выводам пришли и другие исследования. Одно из них показало, что сами чат-боты знают правильный ответ в 95% случаев, но реальные пользователи получают верную информацию лишь в 35% — не лучше, чем если бы они вообще не пользовались ИИ. Согласно другому научному обзору, без результатов анализов и осмотра боты ошибаются с диагнозом более чем в 80% случаев, однако при наличии полных клинических данных их точность превышает 90%.
По словам ученых, чат-боты могут быть полезны, например, для подготовки вопросов перед визитом к врачу. Однако полагаться на них как на самостоятельный медицинский источник не стоит. Любое утверждение, полученное от ИИ, необходимо перепроверять, а к сомнительным ссылкам относиться с осторожностью.
Ранее Наука Mail рассказывала о том, что у каждого ИИ есть свой «характер».
*Компания Meta признана в России экстремистской, ее деятельность запрещена

