
Ученые из Google Research и Стэнфордского университета представили Video Self‑Training with augmented Reasoning (Video‑STaR) — инновационный фреймворк, позволяющий крупным языковым моделям (LLM) самостоятельно обучаться пониманию и описанию видеоконтента без необходимости ручной разметки.
Работа, выполненная командой Ора Зохара из Стэнфорда и коллег из Google, была представлена на конференции International Conference on Learning Representations (ICLR) и уже привлекла внимание специалистов по визуальному ИИ и медицинским приложениям.
Как это работает?
Современные LLM демонстрируют выдающиеся способности в работе с текстом, однако перенос этих успехов на видео сталкивался с серьезной преградой: нехваткой качественных текстовых описаний, необходимых для обучения. Трудоемкий процесс «лейблинга», при котором люди вручную подписывают каждый кадр или фрагмент, оказался экономически нецелесообразным для масштабных наборов данных.

Video‑STaR решает эту проблему с помощью самообучения на основе имеющихся метаданных и фрагментарных пометок. Система запрашивает у модели ответы на вопросы о содержимом видео, фильтрует их по совпадению с исходными метками и затем использует отобранные ответы в качестве дополнительного обучающего материала. Такой цикл «генерация — проверка — дообучение» позволяет достичь двух целей: избавить систему от неправильных интерпретаций и постепенно нарастить глубину рассуждений.
В эксперименте с анализом соревнований по прыжкам в воду Video‑STaR не только подсчитал количество сальто, но и определил точность позы спортсмена при отталкивании и оценивающую сложность на уровне 64,68 балла, что близко к человеческой оценке 65,6 балла. Эта демонстрация показала, что система способна не просто констатировать факты, а выносить экспертные суждения на основе видеоданных.

Для чего нужен такой ИИ?
Авторы считают, что представленная методика откроет новую эру визуально ориентированных AI‑инструкторов и помощников. В спорте такие системы смогут давать мгновенную обратную связь по технике удара в гольфе или плаванию. В медицине они позволят тренировать хирургов и оценивать качество операций на основе записи процедуры, что особенно актуально для хирургической школы и дистанционного обучения. Кроме того, фреймворк применим в робототехнике, автоматическом контроле качества на производстве и образовании.
Video‑STaR опирается на параллельные «нитки» генерации, каждая из которых получает вес, отражающий вероятность корректности и соответствия заданной структуре. Путем последовательного отсева наименее перспективных вариантов система адаптирует свои ресурсы к наиболее полным и точным ответам. Такой подход, основанный на идеях последовательного метода Монте‑Карло, позволяет малым моделям превзойти более крупные аналоги по качеству и скорости.

В дальнейшем команда планирует улучшить алгоритмы фильтрации меток, расширить поддержку длительных и сложных видеороликов, а также интегрировать метод с технологиями обучения, чтобы модель сама перенимала новые правила и снижала потребность во внешних проверках. А на данный момент вы уже можете «потрогать» демо-версию и посмотреть исходный код на GitHub.
Video‑STaR демонстрирует, что современные методы самообучения способны преодолеть давний разрыв между текстовыми и видеомоделями и обеспечить качественное понимание динамики реального мира без дорогостоящей ручной разметки. Это открывает путь к следующему поколению AI‑систем, способных вести «живой» диалог о происходящем в кадре. Еще один интересный метод под названием HIGGS позволяет тестировать и внедрять решения в LLM без потери качества, времени и денег.