ИИ-модель научили обрабатывать изображения подобно человеческому мозгу

Южнокорейские исследователи совершили прорыв в области искусственного интеллекта, разработав модель, которая обрабатывает визуальную информацию так же избирательно, как человеческий мозг. Новая технология — Lp-Convolution — фокусируется на ключевых деталях изображения, игнорируя второстепенные элементы.
Екатерина Альбова
Автор Наука Mail
глаз
Новая разработка имитирует избирательность человеческого зренияИсточник: Unsplash.com

В мире искусственного интеллекта произошло знаковое событие: команда ученых из Института фундаментальных наук (IBS) и Университета Енсе представила революционную модель обработки изображений, вдохновленную принципами работы человеческого мозга. Традиционные алгоритмы, такие, как сверточные нейронные сети (CNN), десятилетиями доминировали в сфере компьютерного зрения, но их главным ограничением оставалась неспособность эффективно анализировать широкий обзор. Они обрабатывают изображения через небольшие квадратные фильтры, что часто приводит к потере важных деталей. Более современные решения, такие, как Vision Transformers, справляются с этой задачей лучше, но требуют колоссальных вычислительных ресурсов. Это делает их малоприменимыми в реальных условиях.

Как сообщает The Korea Bizwire, новая разработка призвана устранить этот дисбаланс. Исследователи под руководством директора Центра познания и социальности IBS Чан Джуна Ли и профессора Университета Ёнсе Кёну Сона создали архитектуру Lp-Convolution, которая имитирует избирательность человеческого зрения. Мозг не обрабатывает всю поступающую информацию одинаково — он выделяет значимые объекты, игнорируя фоновые элементы. Именно этот принцип лег в основу новой модели.

Сравнительный эксперимент визуальных реакций между искусственным интеллектом и человеческим мозгом
Сравнительный эксперимент визуальных реакций между искусственным интеллектом и человеческим мозгомИсточник: http://koreabizwire.com/

Ключевым элементом Lp-Convolution стал так называемый «фильтр маски», который динамически взвешивает важность различных участков изображения. Это позволяет алгоритму концентрироваться на ключевых деталях, значительно повышая точность распознавания. При этом вычислительная нагрузка остается на уровне классических CNN, что делает технологию доступной для широкого применения. Тесты показали, что модели с Lp-сверткой превосходят традиционные CNN в задачах классификации изображений, сохраняя высокую эффективность даже при увеличении размеров фильтров.

Открытие имеет огромный потенциал для различных сфер. В автономных транспортных средствах новая модель может улучшить распознавание дорожных ситуаций, снижая количество ошибок. В медицинской диагностике — точнее анализировать снимки, помогая врачам выявлять патологии на ранних стадиях. Кроме того, технология может найти применение в системах видеонаблюдения, промышленной автоматизации и даже в разработке augmented reality. Результаты исследования будут представлены на Международной конференции по представлениям обучения (ICLR 2025), которая пройдет в Сингапуре с 24 по 28 апреля. 

Напомним, в Объединенных Арабских Эмиратах решили внедрить искусственный интеллект для обновления местного законодательства. Власти рассчитывают, что ИИ на 70% повысит точность и скорость законотворчества.