
Исследовательская группа по физической химии из Вюрцбургского университета (Германия) провела масштабное исследование с целью выяснить, насколько современные большие языковые модели (БЯМ) могут заменить репетитора для студентов, изучающих естественные науки. Для этого был создан инструмент оценки под названием UTQA (Undergraduate Thermodynamics Question Answering — «Ответы на вопросы по термодинамике для студентов бакалавриата»), который находится в свободном доступе. Этот инструмент включает в себя 50 сложных заданий по термодинамике, две трети из которых текстовые, а треть требует интерпретации диаграмм и рисунков, что типично для реального учебного процесса.
По словам руководителя проекта профессора Тобиаса Хертеля, цель исследования заключалась не только в проверке фактических знаний искусственного интеллекта, но и в оценке его способности к рассуждению, связыванию различных условий и пониманию комплексных процессов. Начиная с зимы 2023 года, модели ChatGPT-3.5 и ChatGPT-4 тестировались в рамках лекционного курса по термодинамике, в котором участвовало более 150 студентов. Результаты оказались неоднозначными. Ни одна из протестированных моделей, включая самую передовую на тот момент, не достигла порога в 95% успешности.

Были выявлены два ключевых недостатка. Во-первых, языковым моделям сложно понимать необратимые процессы, где результат зависит от скорости изменения состояния. Во-вторых, ИИ демонстрировал явные пробелы в задачах, требующих интерпретации визуальной информации, такой как графики и диаграммы.
Практический вывод исследования заключается в том, что современные БЯМ уже могут быть крайне полезны в учебном процессе в качестве обучающего инструмента под руководством преподавателя, но они еще недостаточно надежны для полностью самостоятельной работы в качестве репетитора. Однако ученые отмечают колоссальный прогресс, достигнутый за последние два года, и выражают уверенность, что при сохранении текущих темпов развития ИИ вскоре достигнет необходимого уровня экспертных знаний.
Ранее ученые нашли сходство в обучении ИИ и человека.

