В РФ создали ИИ-сервис для создания аудиоверсий научной литературы

Ученые Новосибирского госуниверситета (НГУ) разработали сервис по автоматическому созданию аудиоверсий научной литературы. Скорость создания аудиокниг в 16 раз быстрее, чем если бы их читал диктор, сообщили ТАСС в пресс-службе вуза.
Книги в библиотеке
Источник: Unsplash

«Озвучивание выполняет нейросеть: текст извлекается из PDF, проходит предварительную обработку, после чего формируется звуковая версия. Сервис не предполагает полной замены традиционного чтения, а создается как альтернативная форма доступа к тексту. Скорость [конвертации текста в звук] примерно в 16 раз быстрее, чем читать диктору», — рассказали в пресс-службе.

Проект основан на разработках Исследовательского центра искусственного интеллекта (Центра ИИ) НГУ и проходит этап апробации. Уже озвучены первые сто книг, сейчас команда ожидает обратную связь от библиотеки и пользователей. После успешного выполнения пилотного проекта технологию планируется предложить другим библиотекам. На данном этапе речь идет о переводе в аудиоформат книг университетского издательства и материалов, размещенных в электронной библиотеке, с разрешения правообладателей — всего около 7 тысяч наименований.

«В перспективе мы планируем перевести в аудиоформат все книги, представленные в электронной библиотеке НГУ. Сейчас это около 7 тысяч изданий», — приводит пресс-служба слова ведущего научного сотрудника Центра ИИ НГУ Евгения Павловского.

Он отметил, что решение не является ресурсоемким: на одну книгу уходит примерно полчаса процессорного времени. Сервис создан на базе фреймворка «Каппа», разработанного в центре ИИ НГУ. Он предназначен для управления датасетами и моделями искусственного интеллекта, их тестирования и оценки перед внедрением в рабочие процессы. Фреймворк позволяет проверять корректность работы моделей и снижать риск ошибок или так называемых галлюцинаций ИИ. В новом проекте «Каппа» используется для подготовки обучающих данных для озвучки и сбора обратной связи о качестве результата.

По оценке разработчиков, с точки зрения вычислительных ресурсов само озвучивание всего фонда возможно в течение месяца, однако на организационную подготовку и верификацию результатов озвучки может потребоваться до года.