
Большие языковые модели научились обрабатывать и создавать текст, но до сих пор с трудом «понимали» физический мир. Теперь ситуация может измениться: российские ученые представили нейросетевую архитектуру, способную интерпретировать сложные трехмерные сцены.
Команда из Института AIRI и Центра когнитивного моделирования МФТИ разработала 3DGraphLLM — метод, который позволяет языковым моделям учитывать как геометрию, так и смысловые связи между объектами в реальном пространстве.

Новый метод формирует графовую модель сцены: учитывает расположение объектов, их форму, размеры, а также логические и функциональные связи. Система обучалась на крупнейших датасетах трехмерных реконструкций помещений, а также на аннотированных выборках с текстовыми запросами.
Существующие LLM не всегда хорошо ориентируются в реальной геометрии: 2D-картинки не дают объема, а облака точек — смысла. Новый подход поможет устранить этот разрыв, помогая роботам лучше взаимодействовать с окружающим миром — в быту, на производстве и в медицине. 3DGraphLLM уже прошла тесты на данных Центра робототехники Сбера и была принята к публикации на конференции ICCV, одном из крупнейших форумов по компьютерному зрению.
Ранее мы рассказывали, как российские студенты с помощью ИИ создали идеальные духи.

