
На конференции Сколтеха «Фронтиры прогресса» обсуждались ключевые тренды в развитии искусственного интеллекта — от непрерывного обучения и мультимодальных моделей до прорывов в робототехнике и навигации. Вместе с экспертом разбираемся в эволюции и революционных скачках технологий, а также в том, какие вызовы стоят перед образованием в эпоху стремительного развития ИИ.
Непрерывное обучение ИИ
Непрерывное обучение — это одна из существующих парадигм в области машинного обучения и искусственного интеллекта в целом. Главное ее отличие от классического подхода в том, что нам не нужно всегда иметь полный набор данных для того, чтобы обучить нейронную сеть, скажем, распознавать некоторые объекты. Достаточно некоторых фрагментов данных — мы называем их «опытом» (experience).
Это чем-то похоже на то, как учится человек. Вам ведь не нужно перечитывать все учебники по математике с первого класса, чтобы изучить новую тему — вы опираетесь на предыдущие знания. Хотя, конечно, старые знания могут забываться — есть даже такая кривая забывания у человеческого мозга. Так и здесь: системы могут обучаться на новых данных, но при этом забывать то, что изучали давно.
Такие системы особенно полезны там, где невозможно хранить все данные — например, в медицине, где для каждого пациента нужно отдельное разрешение, или при работе с редкими природными явлениями.
Узкоспециализированные алгоритмы превосходят человека
Существует немало примеров, когда адаптивный ИИ работает лучше человека, но все они очень узкоспециализированные. Превзойти человека в чем-то одном вполне реально. Но сделать это сразу по многим направлениям одновременно довольно-таки сложно.
Например, антропоморфные роботы в лабораториях уже могут распознавать объекты после одного показа — им достаточно один раз увидеть тот или иной объект, чтобы научиться отличать его от других, а также генерализировать эти знания — то есть распознавать похожие объекты. В общем, достаточно один раз роботу увидеть, например, футбольный мяч — считай увидел их все. Компания Figure создала робота, который управляется с помощью Visual-Language-Action (изображение-язык-действие) модели. Это так называемая мультимодальная нейронная сеть, которая способна воспринимать как визуальные, так и текстовые данные и на их основе принимать решение о том, какое именно действие и как необходимо осуществить. Этот подход является наиболее близким к тому, как человек обучается выполнять различные действия на основе двух основных чувств — зрения и слуха.

В Швейцарии находится один из лучших технических университетов мира — ETH Zurich. Там работает робототехническая лаборатория под руководством профессора Давиде Скарамуцца. В 2023 году они сделали действительно прорывную работу: их дрон, в основе системы управления которого применялась Reinforcement Learning (обучение с подкреплением) модель, впервые в истории превзошел чемпиона мира по дронрейсингу. Представьте — искусственный интеллект обогнал живого пилота!
Но здесь важно понимать нюанс: это была очень специфическая задача. Дрон показал выдающийся результат именно на той трассе, для которой его тренировали. Если изменить расположение гоночных ворот — тех контрольных точек, через которые должен пролетать дрон, — его эффективность, скорее всего, заметно снизилась бы.
Способен ли ИИ решить проблему навигации в условиях отсутствия GPS
Сегодня основу цифровой навигации составляют глобальные навигационные спутниковые системы (GNSS), куда входят GPS, ГЛОНАСС, BeiDou, Galileo и другие. Но проблемы с точностью возникают не только из-за GPS-глушилок, используемых в целях безопасности, а в самой физике работы этих систем.
Дело в том, что мы полагаемся на радиосигналы, идущие со спутников. Спутники хороши тем, что находятся в идеально предсказуемых условиях космоса — нет атмосферных возмущений, ветра, волн. Их траектории стабильны, что делает их идеальными навигационными маяками. Однако сам радиосигнал по пути к Земле искажается — прежде всего из-за атмосферных изменений, зависящих от погоды.
Но главная проблема — многократные переотражения сигнала в городской среде. Высокие здания создают так называемые «городские каньоны», где сигнал отражается от стен. Попробуйте использовать навигатор в Москва-Сити — точность резко падает. Хотя на больших высотах, где меньше помех, система работает хорошо.
Для наземной навигации в условиях городских каньонов эффективнее визуальные методы. Это могут быть обычные или стереокамеры, камеры в сочетании с гироскопом и акселерометром, лидары.
Сейчас преобладают классические алгоритмы, где мы явно прописываем систему уравнений. Это позволяет на каждом этапе понимать, как работает система — находить ключевые точки в пространстве, отслеживать их смещение.
Нейросетевые подходы пока применяются в основном для распознавания ключевых точек — уникальных объектов или даже групп пикселей на изображении. Например, нейросетевые дескрипторы. Полный переход на нейросети — вопрос будущего. Современные бортовые компьютеры размером чуть больше смартфона уже позволяют эффективно запускать нейронные сети. Классические же алгоритмы требуют более мощных CPU/GPU. Возможно, в будущем мы перейдем на полностью нейросетевые решения, но сейчас это скорее гибридный подход.

Эволюция vs революция: где ждать следующий прорыв в развитии ИИ
Если говорить о развитии ИИ, здесь всегда присутствуют два параллельных процесса: эволюционный и революционный.
Эволюционный путь — это постепенное, предсказуемое развитие. Сейчас мы видим несколько четких трендов в этом направлении. Прежде всего — большие языковые модели, которые уже вышли далеко за рамки простых чат-ботов. Они успешно работают с разными типами последовательностей данных. Возьмем, к примеру, навигацию — карту можно представить как последовательность снимков, преобразованных в особое математическое представление. Для процессора это выглядит как абстрактный набор данных, но при этом прекрасно обрабатывается.
По сути, большие языковые модели становятся основой для создания сильного ИИ — не узкоспециализированного, а способного, подобно человеку, решать разнообразные задачи. Взять те же генеративные модели: они могут вести диалог, генерировать тексты, создавать изображения или видео. Выше я упоминал робота компании Figure, который благодаря интеграции двух ИИ-моделей способен выполнять различные задачи: первая из них — визуально-лингвистическая модель, способная работать с мультимодальными данными (о них скажу дальше), а также т.н. трансформер (похожая архитектура лежит в основе некоторых генеративных моделей, например ChatGPT) для осуществления тех или иных действий. Это логичный путь развития — если провести аналогию с человеком, развитие речи у ребенка является одним из ключевых показателей интеллекта. Так и здесь — мы развиваем базовые способности, которые потом позволят решать более сложные задачи.
Второй важный «эволюционный» тренд — работа с мультимодальными данными. Что такое модальность? Говоря простым языком, это источник данных. В нашем с вами общении задействованы несколько модальностей: звук (вы слышите мою речь), визуальная информация (видите артикуляцию). В робототехнике модальность — это данные, полученные с любого сенсора: камеры, микрофона, акселерометра, лидара
Теперь о революционном пути. История показывает, что прорывные технологии могут появиться неожиданно и мгновенно изменить правила игры. Те же языковые модели стали таким революционным скачком. Мы не знаем, в какой лаборатории созревает следующая прорывная технология и как она повлияет на нашу жизнь. Это всегда остается открытым вопросом.

Имитация или осознание
Может ли у ИИ появиться настоящее сознание?
Прежде всего нам нужно определиться с терминологией — что именно мы называем сознанием. Не исключено, что в будущем ученые решат связывать это понятие исключительно с биологическими системами. Сознание подразумевает наличие у субъекта некоторой «самости» — то есть субъект должен отделять себя от «окружающего мира» (даже если этот окружающий мир — цифровой), он должен «ощущать» свои границы и границы объектов и субъектов «окружающего мира». Обладающий сознанием субъект должен уметь и познавать окружающий мир и оценивать его влияние на самого себя и принимать различные комплексные решения о своем сохранении и распространении. Наличие сознание также подразумевает его закрытость от других субъектов. Весьма вероятно, что в будущем возможно создать ИИ-агент, который будет обладать сознанием в виртуальной или в реальной окружающей среде, но будет ли это сделано — вопрос открытый.
На сегодняшний день все достижения искусственного интеллекта — это, по сути, имитация отдельных когнитивных функций. От относительно простых задач вроде улучшения фотографий в вашем смартфоне до более сложных, таких как автономное вождение.
Поэтому нет полной уверенности в том, что обретение ИИ сознания произойдет на основе текущих технологий. Современные большие языковые модели — это лишь первый шаг в этом направлении. Возможно, потребуются принципиально новые архитектуры нейронных сетей и новые архитектуры процессоров — ведь существующие полупроводниковые технологии приближаются к физическим пределам.
Сейчас мы наблюдаем несколько перспективных направлений:
- Квантовые вычисления — о них многие слышали.
- По-настоящему экзотические разработки, например, биологические компьютеры. Например, компания «Cortical Labs» выпускает первые в мире серийные биологические компьютеры. Они

Объяснимый ИИ: как понять решения «черного ящика»
Важный вопрос — не приведет ли развитие автономных адаптивных систем к ситуации, когда ИИ начнет принимать какие-то решения, которые мы уже не сможем объяснить.
На самом деле мы уже сталкиваемся с подобной ситуацией. Дело в том, что большинство современных нейронных сетей — это так называемые «черные ящики» (black box). В отличие от «белых ящиков» (whitebox), где мы можем проследить каждый шаг обработки данных (как в системе уравнений), в нейросетях мы в явном виде наблюдаем только входные и выходные данные, а что происходит внутри — наблюдаем лишь в неявном виде. Интерпретация процессов, происходящих внутри нейронных сетей — отдельное научное направление в рамках ИИ.
Данное направление известно как Explainable AI (XAI), объяснимый искусственный интеллект. В рамках данного направления разрабатываются методы, позволяющие интерпретировать процессы внутри нейросетей: что происходит в каждом слое, как преобразуются данные. Так что технически задача объяснимости решаема.
Что касается опасений… Хочу подчеркнуть: ИИ — это прежде всего инструмент. Да, очень сложный, но созданный людьми и работающий на людей. Ключевой вопрос не в том, может ли ИИ стать непонятным, а в том, как его используют те, кто им владеет. Всегда нужно помнить: за любой технологией стоят конкретные люди с конкретными целями. Если держать это в голове, многие опасения рассеиваются.
Разрыв между образованием и экономикой тормозит развитие
Со специалистами по автономным системам в России ситуация сложная. Возьмем, к примеру, разработку систем автономной навигации — это ключевое направление, но найти квалифицированных специалистов крайне сложно. У нас в Сколтехе как раз готовят таких специалистов, и наших выпускников сразу разбирают крупные компании с очень хорошими зарплатами.

Но когда мне нужно найти сотрудника для своей лаборатории в Сколтех — это настоящий вызов. Требуются значительные временные и финансовые ресурсы на поиск. Коротко говоря — таких кадров действительно не хватает.
Если говорить более развернуто, образование не должно существовать отдельно от экономики. Когда в экономике формируется устойчивый спрос на развитие автономных систем со стороны бизнеса и государства — это автоматически создает образовательный запрос на всех уровнях. Тогда естественным образом появляется больше выпускников нужных специальностей, из которых можно готовить как топовых специалистов, так и профессионалов среднего звена. Но для этого необходимы два условия: стимулирование экономики и наличие компаний, готовых трудоустраивать этих специалистов.