Программное самообеспечение: разработчики ИИ все чаще используют Open Source

Open Source, то есть использование открытых моделей, все чаще помогает быстрее внедрять, обучать и улучшать нейросети.
Программирование
Источник: Freepik

По мнению экспертов отрасли, в 2025 году может начаться активное внедрение таких решений. Один из драйверов роста этого рынка — искусственный интеллект (ИИ). Развитие Open Source позволяет получить доступ к передовым технологиям и добиться максимальной эффективности даже небольшим компаниям и организациям, IT-бюджеты которых ограничены, считают эксперты.

Зачем Open Source нужен разработчикам ИИ

Использование открытых ИИ-решений в бизнесе разного масштаба расширяется, рассказывают участники рынка. Сегодня это полноценный инструмент, доступный и тем, кто обладает необходимой экспертизой в ИИ, и тем, кто только начинает внедрять инновации в свои бизнес-процессы, утверждают они. Open Source помогает существенно сэкономить на разработке — например, если разработчики получают доступ к уже готовой модели и дообучают ее под собственные требования.

Есть и другие бесспорные плюсы: вокруг Open Source обычно формируется активное комьюнити, повышается безопасность технологий, развивается технологический рынок в целом.

Open Source активно поддерживается как мировыми технологическими гигантами (Google, Microsoft, IBM), так и российскими игроками, которые вносят свой вклад в развитие ИИ во всем мире. По данным исследовательского центра «Сильный ИИ в промышленности» (ИТМО), в 2024 году в топ-10 российских компаний, которые создают собственные Open Source решения или участвуют в других открытых проектах в области Data/ML, вошли «Яндекс», Сбер, Т-Банк, Postgres Pro, VK, Avito, Evrone, МТС, Selectel и «Академия».

— Значительная часть событий в российском Open Source связана с развитием систем ИИ и языковых моделей. Основные контрибьютеры здесь — «Яндекс» и Т-Банк. Этот банк, например, недавно выложил в открытый доступ большую языковую модель на 32 млрд параметров и обновил еще одну на 7 млрд. А «Яндекс» открыл алгоритмы для ускорения обучения и сжатия языковых моделей, а также платформу для разработки на базе нейросетей, — считает директор по продукту в корпоративном мессенджере Compass Евгений Перов. — Громкой новостью был вход VK в «большой» Open Source. Компания планирует открывать исходный код своих продуктов, IT-систем, библиотек для разработчиков и так далее. Для сообщества это позитивная новость — рынок сможет использовать лучшие практики. Это поднимет общий уровень качества IT-продуктов, причем как Open Source, так и проприетарных.

По мнению руководителя лаборатории стратегического развития продуктов «Газинформсервиса» Дмитрия Овчинникова, открытое ПО вполне можно использовать в качестве инструмента для тестирования на проникновение в информсистемы, повышение удобства администрирования информационной безопасности или для узкоспециализированных задач. ИИ-инструменты также позволяют автоматизировать работу службы поддержки и повышать эффективность сотрудников — например, создавать ассистентов для разработчиков при написании кода, — отмечает он.

— Во всём мире открытый код способствует появлению инноваций, уникальных и сильных решений. Прогресс российской IT-отрасли связан с правильно выстроенными процессами развития, в том числе Open Source, а также с возможностью не быть оторванным от международного контекста, — подчеркивает гендиректор Team Force Руслан Гайнанов.

Open Source смещается в ИИ

Сегодня одним из драйверов развития Open Source можно считать рынок искусственного интеллекта. Этому способствуют такие проекты, как Hugging Face, PyTorch и TensorFlow, позволяющие компаниям быстрее внедрять ИИ, не начиная разработку с нуля. А появление открытых моделей (например, Llama 2 от Meta*, Qwen от Alibaba, Gemma от Google, YandexGPT 5 Lite, Ernie от Baidu) лишь усиливает тренд на доступность ИИ.

Это позволяет стартапам и некоммерческим учреждениям, работающим в условиях ограниченных бюджетов, использовать передовые технологии в своих направлениях. Open Source помогает и крупным игрокам, не специализирующимся на ИИ, быстрее внедрять искусственный интеллект в свои продукты или бизнес-процессы.

— Как исследователя в области ИИ и энтузиаста Open Source, меня очень интересует развитие ИИ-инструментов, которые бы помогали в создании открытых проектов. Так, в ИТМО мы начали создавать открытый инструмент OSA (Open Source Advisor), который нацелен на помощь научным командам в выводе результатов их исследований в виде переиспользуемых репозиториев, — говорит руководитель фронтирной лаборатории ИТМО Николай Никитин.

— Мы видим рост количества стартапов и расширение доступа к высоким технологиям в нишах, которые ранее либо не могли вкладываться в ИИ вовсе, либо в целом ограничены в инвестициях. Это, например, социальные проекты или отдельные отрасли промышленности, небольшие компании и так далее, — отмечает Николай Никитин. Или компании, не имеющие опыта работы с ИИ, но готовые использовать новые технологии в своих решениях для улучшения качества работы поддержки или повышения эффективности сотрудников, — указывает он.

— Open Source становится одним из ключевых способов преодоления барьеров в развитии ИИ. Такой подход существенно экономит ресурсы, ускоряет выход продуктов и делает внедрение ИИ более предсказуемым. Open Source сообщество позволяет тестировать идеи быстрее, делиться улучшениями и преодолевать технологические разрывы за счет коллективного дообучения и переиспользования наработок, — считает директор по взаимодействию с разработчиками «Яндекса» Сергей Бережной. — Open Source — это культура сотрудничества, скорости и эффективности. И это именно то, что помогает ИИ стать доступной технологией в реальной экономике.

Как Open Source влияет на стоимость разработки

Дообучение моделей дает возможность адаптировать выбранную модель к конкретным задачам и повысить ее эффективность в определенной области. Несмотря на то что базовые LLM, которые уже обучены на больших массивах данных, могут показывать неплохие результаты, они не всегда идеально подходят для специализированных задач (например, в медицине или финансах), — отмечают участники рынка. Процесс дообучения позволяет модели получить дополнительные знания на специально подобранных данных, после чего она начинает лучше соответствовать задачам компании.

Например, «Авито» дообучил нейросеть Mistral 7B русскому языку, адаптировав ее для работы с объявлениями компании. В 2024 году Т-Банк выложил в открытый доступ сразу две LLM-модели — T-Pro и T-Lite. Обе модели были дообучены и адаптированы под русский язык. По данным компании, дообучение Qwen-2.5 от Alibaba Group (на их основе созданы модели Т-Банка. — «Известия») позволило оптимизировать затраты на разработку на 80−90% по сравнению с обучением с нуля. А в 2025 году была представлена открытая модель T-Pro 2.0 с гибридным режимом рассуждений. Суммарные затраты на разработку, включая расходы на вычислительные мощности для R&D и финального дообучения, а также зарплаты сотрудников, не превышают 120 млн рублей, — отмечают в банке.

— Нам нужно было найти правильный баланс между полным предобучением своих LLM-моделей с нуля и использованием самых последних Open Source моделей. Обучение с нуля дает возможность полной кастомизации, но это избыточно, сложно и дорого. Открытые модели могут не удовлетворять желаемым свойствам, но постоянно улучшаются и сокращают отставание от своих проприетарных аналогов, — рассказывает руководитель разработки фундаментальных моделей Т-Банка Анатолий Потапов.

Для качественного дообучения используют данные самой компании — это могут быть базы знаний, существующие регламенты, приказы и должностные инструкции, договоры и технические задания.

Как сэкономить при помощи Open Source решений

Благодаря дообучению Open Source выигрывают не только компании, но и целые государства. Развивающиеся страны также получают шанс создавать собственные продукты на базе ИИ и извлекать из них экономическую выгоду. Так, как это делают технологические лидеры — США и Китай. Среди китайских продуктов, к примеру, нейросеть DeepSeek R1, вышедшая в начале 2025 года, полностью открыта для использования в коммерческих и исследовательских целях.

DeepSeek извлек выгоду из открытых исследований и Open Source (например, PyTorch и Llama от Meta). Они придумали новые идеи и построили их на основе работы других людей. Поскольку их работа опубликована и открыта, каждый может извлечь из нее выгоду. В этом сила открытых исследований и открытого исходного кода, — считает Ян Лекун, главный специалист по искусственному интеллекту в Meta*.

Когда Alibaba Cloud выпустила более 100 новых открытых ИИ-моделей, Джинжень Чжоу, технический директор компании, заявил, что «эта инициатива призвана дать возможность разработчикам и корпорациям всех размеров лучше использовать технологии ИИ и далее стимулировать рост Open Source сообщества».

Сергей Пономаренко, директор по LLM-продуктам MTS MWS, отметил, что развитие открытых LLM-моделей в России позволит компаниям, и начинающим разработчикам, и исследователям создавать решения на основе нейросетей, не вкладывая значительные ресурсы в разработку и оборудование.

В конце прошлого года MTS MWS объявила о намерении выпустить LLM-B2B-модель Cotype Nano с возможностью донастройки под конкретные задачи. Сама модель была создана на базе Qwen 2.5 Alibaba Cloud и дообучена MTS MWS на разных наборах данных, в том числе и синтетических, с имитаций реальных сценариев.

Как лицензировать Open Source

Дальнейшее распространение и использование Open Source во многом зависит от развития лицензирования. Так, появились лицензии, призванные защитить разработчиков от недобросовестного применения их труда. Например, если крупная компания вносит изменения в Open Source и использует его для коммерческих услуг, лицензия может требовать публикации этих улучшений в открытом доступе. Таким образом, сохраняется принцип «открытости» проекта.

— Предпочтение исходному коду отдается из-за отсутствия отчислений за лицензии на ПО, что позволяет уменьшить общий IT-бюджет с помощью постепенной замены наименее критичных сервисов компании. Open Source решения не требуют перестройки бизнес-процессов, а, наоборот, позволяют доработать софт под уже работающие, — считает технический директор IT-кластера МТС Банка Сергей Харитонов.

Однако есть примеры исключения, когда, видя заинтересованность профессионального сообщества, компании упрощают условия лицензии, открывая для них больше возможностей для исследований и экспериментов. Например, в начале года «Яндекс» выложил в открытый доступ pretrain-версию YandexGPT 5 Lite, ограничив ее коммерческое применение на уровне лицензии. Несмотря на то что меньше чем за месяц ее скачали более 15 тыс. раз, создав на ее основе более десяти квантованных моделей и дообучив instruct-версии, сообщество было недовольно ограничениями. Позднее компания выпустила instruct-версию и обновила лицензию. Теперь можно использовать модель в любых целях, включая коммерческие, — если объем выходных токенов не превышает 10 млн в месяц. Например, такого числа токенов хватит для создания и поддержки чат-ботов на небольших и средних сайтах, для генерации описаний товаров в интернет-магазинах с ограниченным ассортиментом, для автоматизации ответов клиентам в сервисных центрах или для анализа отзывов пользователей на площадках с умеренным трафиком, — отмечают в компании.

ИИ Open Source продолжает активно использоваться как малым бизнесом, так и крупными компаниями. В сочетании с постоянным ростом числа участников и развитием лицензий это формирует правильную среду для создания инноваций и ускорения технологического прогресса в целом. Открытые технологии всё чаще становятся частью гибридных решений, где базовая технология бесплатна и доступна каждому, а платными оказываются дополнения — например, интеграции, поддержка, кастомизация. Такой подход помогает не только формировать репутацию технологического лидера, решать задачи HR-бренда и способствовать развитию отрасли, но и приносит бизнесу прямую выгоду.