
Международная группа ученых при участии исследователей из Высшей школы экономики разработала проект KoWit-24. Это база данных, состоящая из 2700 заголовков издания «Коммерсант», где активно используется игра слов. Собранные материалы позволили наглядно продемонстрировать, как алгоритмы распознают и интерпретируют сложные лингвистические приемы.
Игра слов выступает как специальный метод, при котором автор сознательно меняет языковую норму для создания нужного эффекта: привлечения внимания, передачи иронии или вызова улыбки. В российских медиа такие заголовки встречаются постоянно. Для человека подобные шутки понятны сразу, но для нейросетей они становятся серьезной проблемой. Одной из причин трудностей считается специфика обучающих данных, где юмор часто представлен простыми анекдотами из интернета без глубокого описания ситуации.
В рамках проекта исследователи из России и Австрии создали набор данных, охватывающий период с начала 2021 года по конец 2023 года. К каждому примеру добавили описание темы, название рубрики и краткий сюжет статьи. Авторы вручную отметили важные элементы, на которых строится шутка, и указали исходные выражения. За основу взяли определение, согласно которому игра слов возникает при возможности двоякого прочтения одной фразы. Это может быть связано с созвучием или переделкой известных названий фильмов и книг. Ученые отдельно выделили случаи использования новых слов, созданных под конкретную задачу, и сочетания противоположных по смыслу понятий.

В ходе тестов проверялись способности пяти моделей, включая разработки компаний «Яндекс» и «Сбер», а также зарубежные системы. Машинам нужно было сначала найти игру слов, а затем объяснить ее происхождение. Выяснилось, что расширенные инструкции с примерами помогают большинству моделей лучше справляться с первой задачей. Самые точные результаты показала система GPT-4o. При этом интерпретация смысла шутки оказалась для всех участников теста гораздо более сложным процессом, чем простое обнаружение каламбура.
Теперь можно объективно сравнивать модели между собой: видит ли модель сам факт игры слов, находит ли «якорь», правильно ли восстанавливает исходную фразу или отсылку. Такие проверяемые метрики помогают не только точнее оценивать текущие системы, но и целенаправленно их улучшать — подбирать формулировки подсказок, обучающие примеры и стратегии проверки фактов
В перспективе авторы планируют изучить возможности использования этой базы для обучения алгоритмов самостоятельному созданию удачных шуток. Корпус текстов вводит единый стандарт оценки, помогая создавать системы, которые лучше понимают живую человеческую речь.
Ранее в МГУ представили новую ИИ-модель для поиска научных текстов.
