Российские ученые выяснили, как нейросети понимают каламбуры

Исследователи из Высшей школы экономики изучили способности искусственного интеллекта распознавать игру слов в заголовках медиа и обнаружили, что даже продвинутые модели часто пасуют перед тонким юмором.
Автор Наука Mail
Исследователи НИУ ВШЭ выяснили, как нейросети понимают каламбуры
Исследователи НИУ ВШЭ выяснили, как нейросети понимают каламбурыИсточник: Komanda AI

Международная группа ученых при участии исследователей из Высшей школы экономики разработала проект KoWit-24. Это база данных, состоящая из 2700 заголовков издания «Коммерсант», где активно используется игра слов. Собранные материалы позволили наглядно продемонстрировать, как алгоритмы распознают и интерпретируют сложные лингвистические приемы. 

Игра слов выступает как специальный метод, при котором автор сознательно меняет языковую норму для создания нужного эффекта: привлечения внимания, передачи иронии или вызова улыбки. В российских медиа такие заголовки встречаются постоянно. Для человека подобные шутки понятны сразу, но для нейросетей они становятся серьезной проблемой. Одной из причин трудностей считается специфика обучающих данных, где юмор часто представлен простыми анекдотами из интернета без глубокого описания ситуации.

В рамках проекта исследователи из России и Австрии создали набор данных, охватывающий период с начала 2021 года по конец 2023 года. К каждому примеру добавили описание темы, название рубрики и краткий сюжет статьи. Авторы вручную отметили важные элементы, на которых строится шутка, и указали исходные выражения. За основу взяли определение, согласно которому игра слов возникает при возможности двоякого прочтения одной фразы. Это может быть связано с созвучием или переделкой известных названий фильмов и книг. Ученые отдельно выделили случаи использования новых слов, созданных под конкретную задачу, и сочетания противоположных по смыслу понятий.

Стопка газет
В российских новостных заголовках каламбуры встречаются часто и могут выглядеть по-разномуИсточник: Freepik

В ходе тестов проверялись способности пяти моделей, включая разработки компаний «Яндекс» и «Сбер», а также зарубежные системы. Машинам нужно было сначала найти игру слов, а затем объяснить ее происхождение. Выяснилось, что расширенные инструкции с примерами помогают большинству моделей лучше справляться с первой задачей. Самые точные результаты показала система GPT-4o. При этом интерпретация смысла шутки оказалась для всех участников теста гораздо более сложным процессом, чем простое обнаружение каламбура.

Теперь можно объективно сравнивать модели между собой: видит ли модель сам факт игры слов, находит ли «якорь», правильно ли восстанавливает исходную фразу или отсылку. Такие проверяемые метрики помогают не только точнее оценивать текущие системы, но и целенаправленно их улучшать — подбирать формулировки подсказок, обучающие примеры и стратегии проверки фактов
Павел Браславский
один из авторов работы, доцент факультета компьютерных наук НИУ ВШЭ

В перспективе авторы планируют изучить возможности использования этой базы для обучения алгоритмов самостоятельному созданию удачных шуток. Корпус текстов вводит единый стандарт оценки, помогая создавать системы, которые лучше понимают живую человеческую речь.

Ранее в МГУ представили новую ИИ-модель для поиска научных текстов.