Video-STaR от Google и Стэнфорда: ИИ самостоятельно понимает видео

Видео на экране оживает для искусственного интеллекта. Система Video‑STaR научила нейросети рассуждать о динамике действий, анализировать сложные кадры и давать экспертные советы без единого штриха ручной разметки.
Владимир Барышев
Автор Наука Mail
Дефицит размеченных видеоданных и высокая стоимость ручной разметки тормозят развитие ИИ‑систем понимания видео.
Дефицит размеченных видеоданных и высокая стоимость ручной разметки тормозят развитие ИИ‑систем понимания видео.Источник: Unsplash

Ученые из Google Research и Стэнфордского университета представили Video Self‑Training with augmented Reasoning (Video‑STaR) — инновационный фреймворк, позволяющий крупным языковым моделям (LLM) самостоятельно обучаться пониманию и описанию видеоконтента без необходимости ручной разметки.

Работа, выполненная командой Ора Зохара из Стэнфорда и коллег из Google, была представлена на конференции International Conference on Learning Representations (ICLR) и уже привлекла внимание специалистов по визуальному ИИ и медицинским приложениям.

Как это работает?

Современные LLM демонстрируют выдающиеся способности в работе с текстом, однако перенос этих успехов на видео сталкивался с серьезной преградой: нехваткой качественных текстовых описаний, необходимых для обучения. Трудоемкий процесс «лейблинга», при котором люди вручную подписывают каждый кадр или фрагмент, оказался экономически нецелесообразным для масштабных наборов данных.

Video‑STaR позволяет моделям самостоятельно отсеивать некорректные выводы и укреплять правильные рассуждения.
Video‑STaR позволяет моделям самостоятельно отсеивать некорректные выводы и укреплять правильные рассуждения.Источник: Unsplash

Video‑STaR решает эту проблему с помощью самообучения на основе имеющихся метаданных и фрагментарных пометок. Система запрашивает у модели ответы на вопросы о содержимом видео, фильтрует их по совпадению с исходными метками и затем использует отобранные ответы в качестве дополнительного обучающего материала. Такой цикл «генерация — проверка — дообучение» позволяет достичь двух целей: избавить систему от неправильных интерпретаций и постепенно нарастить глубину рассуждений.

В эксперименте с анализом соревнований по прыжкам в воду Video‑STaR не только подсчитал количество сальто, но и определил точность позы спортсмена при отталкивании и оценивающую сложность на уровне 64,68 балла, что близко к человеческой оценке 65,6 балла. Эта демонстрация показала, что система способна не просто констатировать факты, а выносить экспертные суждения на основе видеоданных.

При анализе прыжков в воду Video‑STaR подсчитал сальто и оценил сложность, практически повторив судейские оценки.
При анализе прыжков в воду Video‑STaR подсчитал сальто и оценил сложность, практически повторив судейские оценки.Источник: Unsplash

Для чего нужен такой ИИ?

Авторы считают, что представленная методика откроет новую эру визуально ориентированных AI‑инструкторов и помощников. В спорте такие системы смогут давать мгновенную обратную связь по технике удара в гольфе или плаванию. В медицине они позволят тренировать хирургов и оценивать качество операций на основе записи процедуры, что особенно актуально для хирургической школы и дистанционного обучения. Кроме того, фреймворк применим в робототехнике, автоматическом контроле качества на производстве и образовании.

Video‑STaR опирается на параллельные «нитки» генерации, каждая из которых получает вес, отражающий вероятность корректности и соответствия заданной структуре. Путем последовательного отсева наименее перспективных вариантов система адаптирует свои ресурсы к наиболее полным и точным ответам. Такой подход, основанный на идеях последовательного метода Монте‑Карло, позволяет малым моделям превзойти более крупные аналоги по качеству и скорости.

Video‑STaR открывает путь к «умным» тренерам в спорте, виртуальным репетиторам и медицинским ассистентам, которые смогут давать корректирующую обратную связь в реальном времени.
Video‑STaR открывает путь к «умным» тренерам в спорте, виртуальным репетиторам и медицинским ассистентам, которые смогут давать корректирующую обратную связь в реальном времени.Источник: Unsplash

В дальнейшем команда планирует улучшить алгоритмы фильтрации меток, расширить поддержку длительных и сложных видеороликов, а также интегрировать метод с технологиями обучения, чтобы модель сама перенимала новые правила и снижала потребность во внешних проверках. А на данный момент вы уже можете «потрогать» демо-версию и посмотреть исходный код на GitHub.

Video‑STaR демонстрирует, что современные методы самообучения способны преодолеть давний разрыв между текстовыми и видеомоделями и обеспечить качественное понимание динамики реального мира без дорогостоящей ручной разметки. Это открывает путь к следующему поколению AI‑систем, способных вести «живой» диалог о происходящем в кадре. Еще один интересный метод под названием HIGGS позволяет тестировать и внедрять решения в LLM без потери качества, времени и денег.