
Ровно как биологическая основа человека зашифрована нуклеотидным текстом ДНК, так и история его становления хранится в рукописях, надписях на камнях и папирусах. Но, подобно мутациям ДНК, исторические документы тоже повреждаются — вплоть до невозможности прочтения. Там, где бессилен человеческий глаз, в последние годы историкам помогает искусственный интеллект — компьютерные системы, способные обрабатывать огромный массив данных, устанавливать закономерности и делать выводы. Так же, как и человек, но быстро и беспристрастно.
Помимо очевидной высокой скорости обработки данных, использование ИИ делает возможным восстановить те фрагменты истории, которые ранее казались утерянными навсегда. Расшифровка фрагментов древних надписей, определение языка и даты, перевод древних текстов на современные языки — это помогает лучше понять культуру, религию и быт прошлых эпох, и именно в этих задачах ученым помогает искусственный интеллект.
Как искусственные языковые модели учат древние человеческие языки
Для того, чтобы «научить» компьютер читать древние тексты, специалисты применяют методы машинного обучения, которые позволяют программам учиться на конкретных примерах. Одним из ключевых направлений здесь является нейронная сеть, которая имитирует работу человеческого мозга — она состоит из множества «узлов», связанных между собой. И так же, как мозг человека способен строить ассоциации, нейронная сеть может находить скрытые связи в данных, делать предположения и выводы.
Важную роль играет компьютерное зрение — область ИИ, занимающаяся анализом изображений. Эта технология позволяет системе «видеть» фрагменты текста на старинных свитках или табличках, выделять отдельные буквы и слова, даже если они частично стерлись или разрушены. Это сильно облегчает реконструкцию языка.
Еще одна важная часть в трактовке древних текстов — обработка естественного языка (NLP, Natural Language Processing). Эта область ИИ фокусируется на взаимодействии между компьютерами и людьми с помощью естественного «человеческого языка». С помощью NLP модели могут не только читать текст, но и, исходя из контекста, предполагать, какие именно слова были стерты или пропущены в предложениях.

Течение времени привело многие древние тексты в нечитаемое состояние — буквы стерлись, строки исчезли, страницы разорваны. Тут на сцену выходят предсказательные способности ИИ. В строке текста, где отсутствует несколько букв, модель подбирает наиболее вероятный вариант, основываясь на миллионе других текстов, на которых она была обучена. Эти алгоритмы работают благодаря механизмам внимания — особому типу вычислений в нейронных сетях, которые позволяют моделям фокусироваться на конкретных частях текста, учитывать контекст.
Но часто задача восстановления текста требует использования сразу нескольких методов. Например, чтобы прочесть свиток из Геркуланума, нужно сначала создать его цифровую копию с помощью КТ-сканирования, затем использовать компьютерное зрение, дабы найти чернила на фоне бумаги, только потом уже применить обработку естественного языка для интерпретации символов.
Такие гибридные подходы становятся стандартом в современной науке. Они позволяют решать сложные задачи, комбинируя силы разных технологий. К тому же методы, разработанные в одной области, могут успешно применяться в другой. Так, модель PathChat, разработанная для медицинской диагностики, использует те же принципы — учится на изображениях тканей пациентов и затем «предугадывает» подозрительные клетки, которые могут быть больными или раковыми.
Виртуальный историк в компьютере: реальные примеры
Прежде чем ИИ стал широко использоваться, историки полагались на собственные знания, сравнительный анализ, и… иногда интуицию. Теперь же у ученых есть предсказательный инструмент, способный обрабатывать огромные объемы информации за секунды и устанавливать причинно-следственные связи.

Платформа Transkribus на базе ИИ используется для автоматического распознавания рукописного текста. Так ученые создали модель для распознавания сложных рукописных архивных текстов португальской инквизиции XVI-XIX вв., что позволило создать базу древних данных и раскрыть новые исторические подробности о религиозных преследованиях и социальной жизни Португалии тех времен. Другие ученые использовали платформу для стилистического анализа рукописей Золотого XVI века Испании, и обнаружили ранее неизвестную пьесу знаменитого драматурга Лопе де Веги — La francesa Laura. Это открытие стало возможным благодаря точному распознаванию и анализу большого массива документов, ранее трудночитаемых из-за особенностей почерка жителей средневековой Испании.
Один из самых известных проектов по расшифровке древних текстов — Ithaca, созданный совместно с Оксфордским университетом и DeepMind, подразделением Google. Ithaca может восстанавливать утраченные части текста, определять географическое происхождение текста и уточнять дату его создания с небольшой для древних текстов погрешностью — в 30 лет. Общая точность восстановления текста моделью Ithaca составляет 62%, что уже выше, чем результаты, достигаемые людьми без помощи ИИ. Синергический же эффект работы историков с нейронной сетью достигает 72%.
Из интересного, Ithaca пересмотрела датировку некоторых спорных афинских декретов V века до н.э., предложив точную хронологию — около 421 года до н.э. Это уточнило некоторые представления о политической истории Древних Афин и показало, как новые технологии могут изменить понимание прошлого.
Другой проект — а если точнее, конкурс Vesuvius Challenge, — был направлен на расшифровку обугленных свитков из Геркуланума. Эти свитки были найдены в доме древнеримского философа, но из-за извержения Везувия в 79 году н.э. они превратились в уголь и оказались практически нечитаемыми. Развернуть их физически невозможно — бумага слишком хрупкая. Поэтому исследователи из Оксфорда использовали микроКТ-сканирование — аналог томографии, применяемой в медицине, дабы получить трехмерное изображение свитка. Затем предложили участникам конкурса использовать работу алгоритмов машинного обучения, чтобы «прочесть» его содержимое. К февралю 2024 года аспиранту из Египта и американскому стажеру SpaceX удалось прочесть около 2000 символов текста на древнегреческом языке — около 5%. Текст оказался философским трактатом о музыке, еде и удовольствии.

Вместо заключения
Искусственный интеллект уже помогает заполнить пробелы в истории своего создателя — человека. Он восстанавливает утраченные знания, предлагает и проверяет гипотезы, определяют дату исторических документов и переводит средневековые рукописные тексты на современные языки. Но все ли так просто?
К сожалению, нет. Работа со свитками, написанными углеродными чернилами, все еще затруднена из-за низкой контрастности между чернилами и папирусом. Для решения этой задачи ученые используют мощный источник света, позволяющий узнать состав и структуру чернил, что невозможно сделать невооруженным глазом человека. И такие данные тяжело интерпретировать даже ИИ.
Также остается вопрос экологичности. Обучение больших моделей ИИ требует значительных вычислительных мощностей и энергии. Чтобы минимизировать вред окружающей среде, разработчики стараются использовать облачные сервисы, работающие на возобновляемых источниках энергии.
Несмотря на трудности, современные технологии машинного обучения позволяют услышать отголоски прошлого, которые имели риск замолчать навсегда. Несмотря на все достижения, ИИ не заменяет историков, и самая эффективная и результативная работа происходит только при симбиозе экспертов и вычислительных мощностей ИИ.
Из нашего другого материала вы можете узнать, как ИИ анализирует рентгеновские снимки.