категории | RSS

Учёные с помощью ИИ прочли зачеркнутые слова в рукописях Пушкина

Специалисты Института русского языка РАН и отдела «Зрительные системы» ФИЦ ИУ РАН разработали метод, позволяющий прочесть слова, которые Александр Пушкин зачеркнул в своих записях. Это позволяет убедиться, действительно ли тексты в сборниках соответствуют задумке поэта, а также даёт возможность проследить ход его творческой мысли.

В интервью для RTVI Дмитрий Николаев, завотделом «Зрительные системы» ФИЦ ИУ РАН, рассказал, что сначала специалисты обучили одну нейросеть «зачеркивать» слова так же, как это делал сам Пушкин, а далее следующая нейросеть на этой основе училась зачеркивание снимать. Корпусом текстов для обучения выступили «Болдинские рукописи» — рукописные черновики поэта, в которых он работал над разными произведениями. «На первом этапе мы использовали так называемую генеративно-состязательную сеть, представляющую собой комплекс из двух нейросетей, одна из которых синтезирует тот или иной образ — в данном случае зачеркнутое слово из рукописи, а вторая пытается отличить сгенерированный образ от реального. Иными словами, задача первой сети — генерировать зачеркивания на основе исходного набора реальных изображений, а задача второй — различить, сгенерировано ли полученное зачеркивание нейросетью или же поступило из подлинника. Фактически эти сети соревнуются между собой. И если вторая сеть работает достаточно эффективно, первая — генерирующая — со временем учится создавать весьма правдоподобные изображения. Настолько убедительные, что вторая сеть не справляется с задачей отличения. В этом и состоит основной принцип GAN.

Безусловно, такой подход сопряжен с определенными рисками — задача ставится чрезвычайно общо, итоговый результат непредсказуем и в целом неясно, какие именно признаки удается воспроизвести первой нейросетевой модели, а какие нет. Однако в данном случае мы использовали GAN для того, чтобы зачеркивать слова. Это показалось мне довольно уместным решением, поскольку не составляет труда проверить, справился ли алгоритм или нет.

На втором этапе мы использовали полученные изображения с “убедительно” сгенерированными зачеркиваниями для обучения нашей основной нейросети, чтобы та могла снимать зачеркивания, и можно было бы оценить эффективность ее работы, зная верный ответ. Снять зачеркивания удалось благодаря нейросетевой архитектуре “Да Винчи”, созданной в нашей компании Smart Engines. Мы взяли ее за основу, поскольку она была разработана в том числе для решения задачи удаления линий разграфки, затрудняющих распознавание рукописных данных в официальных документах», — говорит Дмитрий Николаев.

После всего обучения исследователи получили инструмент, который показывает, как, вероятно, выглядит тот или иной фрагмент текста без зачеркивания.

Разумеется, этот результат не может быть принят за абсолютную истину: выводы нейросети проверяют специалисты по почерку Пушкина, которые оценивают, насколько предложенный вариант похож на правду.

Как отмечает доктор филологических наук Николай Перцов, тоже принимавший участие в проекте, подобные исследования важны для науки, поскольку иногда получается найти неверно прочтённые фрагменты, печатные варианты которых долгое время несут эту ошибку. Таких случаев немного, но их всё же следует изучать.

Кроме того, Пушкин — не единственный автор, оставивший после себя корпус рукописных текстов. Опробованная на «Болдинских рукописях» технология далее может помочь с исследованием и других произведений и писателей.



Источник новости: habr.com

DimonVideo
2025-02-11T18:50:03Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика