
Исследователи обнаружили, что десятки моделей ИИ для прогнозирования риска инсульта и диабета обучены на сомнительных данных. Как сообщает научный журнал Nature, Адриан Барнетт, статистик из Квинслендского технологического университета в Брисбене, и его коллеги выявили 124 рецензируемые статьи, в которых использовали два общедоступных набора медицинских данных с неясным происхождением.
Первый «Набор данных для прогнозирования инсульта» был загружен на Kaggle, платформу, которую разработчики могут использовать для доступа к наборам данных при создании моделей машинного обучения, и содержит информацию о состоянии здоровья 5 110 человек, в том числе данные об истории сердечных заболеваний, семейном положении, среднем уровне глюкозы в крови и ИМТ. В описании указано, что набор включает 11 клинических признаков для прогнозирования инсульта.

При анализе исследователи обнаружили несоответствия: например, в данных почти не было пропусков. По словам Барнетта, это подозрительно — в реальных наборах всегда есть пробелы из‑за того, что участники могут покинуть исследование, пропустить обследования или умереть. Полностью полных наборов данных из реальной практики не бывает. Этот набор использовали в 104 исследованиях, включая проекты для больниц в Индонезии и США. Набор данных об инсульте был загружен Федерико Сориано Паласиосом, специалистом по анализу данных из Мадрида, и был скачан более 288 000 раз. В разделе обсуждения набора данных на Kaggle Паласиос заявил, что данные получены из конфиденциального источника и должны использоваться только в образовательных целях.
Второй набор — «Набор данных для прогнозирования диабета» — включает информацию о 100 000 человек, включая их ИМТ, историю курения и уровень глюкозы в крови. Однако команда Барнетта обнаружила, что данные содержат всего 18 отдельных значений уровня глюкозы в крови для всех предполагаемых участников, что, по словам Барнетта, невозможно, учитывая огромное разнообразие показателей у разных людей. Команда также заявила, что выявила тысячи значений, которые, по-видимому, дублировались. Набор задействовали в 21 исследовании, но в клинике его пока не применяли.
Набор данных о диабете был загружен Мохаммедом Мустафой, инженером по обработке данных из Ченнаи, Индия, который заявляет на Kaggle, что данные получены из агрегированных электронных медицинских карт. В ответ на вопрос пользователя в разделе обсуждений Мустафа отмечает, что «по соображениям конфиденциальности или другим ограничениям я не могу раскрыть конкретный источник набора данных для прогнозирования диабета».
По мнению исследователей, модели на данных неизвестного происхождения ненадежны: они могут приводить к неверным диагнозам и решениям о лечении.
Журнал Scientific Reports уже отозвал три статьи из‑за сомнений в достоверности данных. Некоторые авторы пояснили, что использовали наборы лишь для проверки алгоритмов, а не для клинических выводов. Пресс‑служба Kaggle отказалась комментировать ситуацию.
Ранее Наука Mail рассказывала о том, что ИИ превзошел врачей в анализе сложных онкологических отчетов.

