Искусственный интеллект

Российские ученые научили языковые модели «видеть» 3D-мир, как человек

Российские исследователи разработали архитектуру, которая научила языковые модели не просто видеть объекты, а понимать смысловые связи между ними в 3D-пространстве.
Мозг, сгенерированный ИИ
Новый метод, который расширяет возможности больших языковых моделей при работе с трехмерным пространствомИсточник: Ideogram

Большие языковые модели научились обрабатывать и создавать текст, но до сих пор с трудом «понимали» физический мир. Теперь ситуация может измениться: российские ученые представили нейросетевую архитектуру, способную интерпретировать сложные трехмерные сцены.

Команда из Института AIRI и Центра когнитивного моделирования МФТИ разработала 3DGraphLLM — метод, который позволяет языковым моделям учитывать как геометрию, так и смысловые связи между объектами в реальном пространстве.

3D-тесселяция Вороного гифов гриба
3DGraphLLM позволяет учитывать пространственные и семантические связи между элементами сценыИсточник: Mohamed Khalil Elhachimi

Новый метод формирует графовую модель сцены: учитывает расположение объектов, их форму, размеры, а также логические и функциональные связи. Система обучалась на крупнейших датасетах трехмерных реконструкций помещений, а также на аннотированных выборках с текстовыми запросами.

Существующие LLM не всегда хорошо ориентируются в реальной геометрии: 2D-картинки не дают объема, а облака точек — смысла. Новый подход поможет устранить этот разрыв, помогая роботам лучше взаимодействовать с окружающим миром — в быту, на производстве и в медицине. 3DGraphLLM уже прошла тесты на данных Центра робототехники Сбера и была принята к публикации на конференции ICCV, одном из крупнейших форумов по компьютерному зрению.

Ранее мы рассказывали, как российские студенты с помощью ИИ создали идеальные духи.