
Команда специалистов из Московского физико-технического института (МФТИ), Санкт-Петербургского национального исследовательского университета информационных технологий, механики и оптики (ИТМО), Института искусственного интеллекта AIRI и Sber AI приобщили модели генерации изображений к культуре России.
Исследователи разработали уникальную методику сбора и обработки данных «текст-изображение» и дообучили модель Kandinsky 3.1 для генерации изображений с учетом особенностей русского культурного кода.

Методика содержит 17 ключевых направлений, включая особенности языка, литературы, пословицы и традиционные образы. Для создания датасета исследователи вручную отобрали и обработали тысячи текстов и иллюстраций из открытых источников, создав в итоге около 200 тысяч пар данных. Это помогло улучшить понимание моделью русскоязычных запросов и культурных контекстов.

После дообучения Kandinsky 3.1 показала superior (наивысшие) результаты в сравнении с аналогами, включая DALL-E 3, при генерации образов, связанных с русской культурой. Для оценки использовали метод слепого тестирования, где участники выбирали наиболее точные и качественные изображения.
В будущем ученые планируют адаптировать модель для генерации видео. Результаты работы опубликованы в журнале «Доклады Российской академии наук. Математика, информатика, процессы управления».
Ранее Наука Mail писала о том, что создать Чебурашку можно из коалы, изменив несколько сотен генов.

