Искусственный интеллект поможет отделам кадров городских и региональных администраций

Школа для ИИ: как нейросети учатся быть нашими секретарями

Могут ли чат-боты на основе искусственного интеллекта вести себя, как люди? Иногда во время их использования кажется, что да — настолько, что им можно поручить роль секретаря, наставника, коуча. Однако за естественностью их формулировок стоят бесконечные базы данных, инфраструктуры для обработки, выверенные алгоритмы и кропотливая работа инженеров и аналитиков. Как учатся нейросети и как разработчики создают полезные инструменты на их основе, порталу Наука Mail рассказал Иван Пичугин из МТС Линк.
AI-архитектор и технический лидер ML-команды в компании МТС Линк
Процессор, на котором находятся буквы AI
Естественность — это иллюзия. За каждым ответом ИИ — гигабайты данных и выверенные алгоритмыИсточник: Unsplash
Врез об эксперте: Иван Пичугин — выпускник НИУ ВШЭ, более пяти лет работает в области машинного обучения и искусственного интеллекта. AI-архитектор и технический лидер ML-команды в компании МТС Линк, где внедряет LLM-технологии в продукты для корпоративных коммуникаций.

Искусственный интеллект становится полноценным участником человеческого общения, и самый простой пример — использование генеративных нейросетей: например, чат-ботов (ChatGPT, DeepSeek) или сервисов для генерации изображений (Midjourney, «Шедеврум» и др.). В бизнесе тем временем востребованы системы для автоматизации процессов, которые выполняют рутинную работу за людей. Например, нейросети справляются с саммаризацией онлайн-встреч, составлением резюме, расшифровкой и выделением ключевых моментов записи мероприятий.

Главное достоинство искусственного интеллекта в том, что он обрабатывает информацию и принимает решения в разы быстрее человека, а ошибается гораздо реже. Разберёмся, на чём базируются его способности.

Как мыслят машины

Вопреки расхожему мнению, ИИ не умеет «думать самостоятельно»: вместо этого он подбирает ответы наиболее статистически вероятным образом. Так устроены большие языковые модели (Large Language Models, LLM), которые выполняют различные задачи обработки естественного языка (то есть «человеческого»).

В основе их работы лежат петабайты информации из баз данных. В них чаще всего входят сведения из интернета. Некоторые разработчики отдельно приобретают платные закрытые датасеты, а другие создают свои специализированные массивы. Модель анализирует контекст запроса и просчитывает вероятность каждого слова, одного за другим.

Мужчина с ноутбуком и планшеткой в руках смотрит на мозг синего цвета, на котором написано AI
ИИ-секретарь не думает, он вычисляетИсточник: Freepik

Например, на запрос «Назови столицу Франции» ИИ ответит «Париж», потому что именно эта последовательность встречается в его базах. При этом он имитирует наиболее вероятный ход рассуждения человека, что помогает ему оставаться в контексте, создает иллюзию интеллекта и эффект осмысленности.

Взаимодействие пользователей с генеративным ИИ строится на текстовых запросах — промптах, с помощью которых модель LLM понимает свою задачу.

Детали обучения

Одно из важнейших свойств нейросетей — умение обобщать и находить решения для новых задач. Для этого используется машинное обучение (Machine Learning, ML) — набор методов, которые позволяют нейросетям не просто выполнять заранее прописанные инструкции, а самому находить закономерности в данных и на их основе принимать решения или делать прогнозы. По сути, инженеры лишь показывают машине примеры — фотографии, тексты или числа, — и она учится распознавать сходства, отличия и связи, чтобы потом справляться с новыми задачами.

Важную роль в процессе машинного обучения играет разметка данных — добавление меток к полученной информации, чтобы ИИ мог их правильно интерпретировать. К примеру, тэги «дом», «дерево», «автомобиль» к соответствующим изображениям помогают алгоритму отличить их от других категорий. Похожим образом ИИ учится различать тон речи, отделять юмор от сарказма, вежливость от грубости.

В то же время специалисты ML проводят очистку сведений: выявляют загруженные ошибки, несоответствия, «мусор».

Алгоритмы корректируются на протяжении всего обучения, «предела совершенству» здесь не бывает. Когда нейросеть «сдаёт экзамен» и попадает к пользователям, базы данных продолжают обновляться раз в несколько месяцев, а техподдержка следит за соответствием качеству.

Данные в представлении нейросети
Ключевой ингредиент ИИ — данные. Чем их больше и качественнее, тем умнее модельИсточник: Kandinsky

Хьюстон, у нас проблемы

Искусственный интеллект может ошибаться, если неверные данные заложены в его базу — но когда искомая информация совершенно отсутствует, ему свойственно «додумывать» вещи. Больше всего чат-боты любят сочинять статистику. Они могут приводить несуществующие цитаты, приписывая их известным лицам, или делать ошибочные выводы, основываясь на собственной аналитике (как мы помним, главная задача LLM — выдать максимально правдоподобный ответ, а не истинный). Поэтому так важно проверять информацию, выданную чат-ботом.

Сюда относится и излишняя уверенность: ИИ никогда первым не признает, что был неправ в том или ином вопросе. Его алгоритмы устроены так, что ответ должен звучать уверенно, даже если задача выходит за пределы его компетенций. Современные модели пока не осознают границ своих знаний. Но повторный запрос «Ты уверен?», «Ты не перепутал факты?» заставит его пересмотреть результат.

Не всегда нейросеть может поддерживать контекст в долгой «беседе»: когда диалог становится слишком длинным, предыдущие данные вытесняются, система перестаёт их воспринимать. Это связано с тем, что длина контекстного окна ограничена — на этапе обучения закладывается определённое количество токенов, то есть частей слова или символов, и если их лимит превышен, то вводные стираются.

Стол, на котором стоят два ноутбука и стакан кофе
Инженеры — это «учителя» для нейросетей. Они ставят задачи и исправляют ошибкиИсточник: Unsplash

Стоит учитывать, что искусственный интеллект пока не достиг того уровня, который описывается в научно-фантастических романах: он еще не превратился в AGI (Artificial General Intelligence, общий искусственный интеллект) — в ИИ, способный думать, как человек. Модели становятся всё лучше и лучше, но пока они лишь имитируют сознание. В июне, например, появился мем, связанный с этой особенностью ИИ — ChatGPT не справился с созданием алфавита для детей, перепутав и слова, и иллюстрации. На волне хайпа другие пользователи стали генерировать юмористические виды азбуки, а чат-бот продолжил ошибаться.

Не всегда нужно начинать с нуля

Сегодня пользователям доступны сотни LLM-моделей, созданные как независимыми разработчиками, так и корпорациями по всему миру. Среди самых известных — GPT от OpenAI, Gemini от Google, Claude от Anthropic и китайская модель DeepSeek. В России разработкой LLM чаще всего занимаются крупные экосистемные игроки — Яндекс, Сбер, MWS.

Большие языковые модели встраиваются в самые разные цифровые сервисы для бизнеса и рядовых пользователей. Чат-бот техподдержки в банке, саммаризация онлайн-встречи, автоматическая генерация писем в CRM-системах — всё это функционирует благодаря встроенным LLM. В абсолютном большинстве случаев разработчики таких инструментов не создают LLM с нуля: для этого им пришлось бы нанять большую команду исследователей, инженеров, MLOps, дата-аннотаторов и потратить миллионы долларов. Поэтому чаще всего в такие сервисы встраиваются уже существующие модели.

Однако интегрировать новый сервис с готовой моделью обычно недостаточно: нужно научить ее выполнять конкретное действие при минимальных усилиях со стороны конечного пользователя. Эта задача обычно реализуется на стороне разработчика конкретного сервиса и делится на два этапа.

Робот на фоне "стены" из данных
Ошибка — это урок. Как нейросеть учится на собственных неудачах и корректирует ответыИсточник: Unsplash

Первый этап — донастройка и дообучение LLM под свои данные и задачи. Для этого требуются дополнительные размеченные датасеты: например, чтобы обучить чат-бот техподдержки, можно использовать 2000 образцов диалога операторов и клиентов. Меняются только верхние слои нейросети, а основа сохраняется. Пример из нашей практики: создавая «второго пилота» и другие ИИ-функции нашей платформы, мы взяли за основу большую языковую модель от MWS AI. А наша команда учила языковую модель корпоративной коммуникации на русском языке — ее стилю и tone of voice.

Второй этап включает в себя интеграцию языковых моделей для решения конкретных задач. Эту работу называют термином «контекстная инженерия»: ML-специалисты предоставляют модели все необходимые инструкции и данные, чтобы научить ее давать пользователям релевантные ответы. Именно на этом этапе правильно выстраивается цепочка «пользовательский запрос» — «рассуждение» — «ответ».

Как мы это сделали: кейс МТС Линк

Наша команда начала заниматься активным внедрением LLM в свои сервисы около двух лет назад. До этого на нашей платформе для онлайн-встреч тоже были ИИ-функции, не связанные с текстом — например, шумоподавление, размытие и замена фона, цифровые маски и аватары.

Первым опытом работы с LLM стала автоматическая расшифровка и саммаризация онлайн-звонков — то есть генерация краткого содержания онлайн-встреч. Главная задача этого инструмента — облегчить жизнь сотрудникам, в чьи обязанности входит протоколирование, и освободить их время для приоритетных задач. За функцией стоит следующий механизм: нейросеть анализирует голос, переводит его в текст, то есть транскрибирует. Затем фрагменты распределяются по степени важности — и на выходе мы получаем краткий пересказ встречи.

Следующим шагом стало создание ИИ-помощника — встроенного в платформу чат-бота, который отвечает на любые вопросы пользователя, связанные с его рабочим общением: онлайн-встречами и переписками в мессенджере. Например, помощника можно попросить дать сводку всех непрочитанных сообщений в чатах, подвести итоги прошедших онлайн-встреч, напомнить о договоренностях и поставленных задачах.

Мужчина с планшетом в руках смотрит на робота
Будущее — за гибридным интеллектом, где ИИ обрабатывает рутину, а человек решает сложные задачиИсточник: Freepik

Чтобы такой чат-бот работал корректно, важно, чтобы вся информация из разных сервисов МТС Линк агрегировалась в единый массив, подготовленный для работы с ИИ. Наша задача — сделать так, чтобы помощник научился из всех доступных данных выделять только те, которые соответствуют запросу. Залогом качественного ответа становится грамотное составление контекста, который мы передаем модели. Контекстной инженерией у нас занимается отдельная команда.

Качество работы получившегося инструмента необходимо контролировать. Во-первых, можно сравнивать результаты работы помощника с выборкой идеальных ответов, подготовленных людьми. Контекст нуждается в доработке, если ответы чат-бота заметно уступают по точности, читаемости и другим параметрам. Второй путь — применять для оценки ответов отдельную проверяющую LLM-модель. В своей работе наша команда комбинирует оба подхода.

Наш следующий шаг, помимо улучшения существующих функций, — запуск ИИ-агентов, которые смогут не только предоставлять данные по запросу, но и выполнять более сложные команды: назначить встречу, поставить задачу в таск-трекере, поработать с CRM. В отличие от ИИ-помощников, агенты умеют планировать, принимать решения и действовать без постоянного сопровождения со стороны человека. Таким образом, автоматизация сможет закрыть ещё большее количество задач, которые сегодня выполняются людьми. Исследование консалтинговой компании Gartner в конце 2024 года предсказывало, что к 2028 году 33% корпоративного ПО будет включать ИИ-агентов, а 15% ежедневных операционных решений будут приниматься без участия человека.

Ранее мы рассказывали, почему ChatGPT плохо имитирует людей.