Удаление знаков препинания и артиклей из текстов снижает точность языковых моделей до 20%. К такому выводу пришли исследователи Института AIRI. В ходе экспериментов они установили, что элементы текста, часто воспринимаемые как незначительные, играют ключевую роль в понимании контекста, рассказали информационной службе Хабра в пресс‑службе Института AIRI. Код для анализа доступен в открытом доступе.
Языковые модели обрабатывают текст как последовательность токенов. Среди них система выделяет те, которые наиболее важны для понимания. Исследователи разработали метод, позволяющий определить, какие данные сохраняются в связке с отдельными токенами.
Первый эксперимент был направлен на проверку способности модели восстанавливать исходный текст. Для этого систему обучили анализировать токены с учетом знаков препинания, артиклей и стоп‑слов. Результаты показали, что именно стоп‑слова содержат больше всего контекстной информации.
Затем команда провела тесты на наборах задач MMLU и BABILong. В текстах заранее удалили элементы, кажущиеся несущественными. Чтобы определить, какие части можно убрать без потери смысла, языковым моделям, включая ChatGPT, дали задание оценить текст с точки зрения человека. Оказалось, что при удалении таких элементов точность выполнения заданий заметно падает.
Руководитель группы «Интерпретируемый ИИ» лаборатории FusionBrain Института AIRI Антон Разжигаев сообщил, что изучение принципов работы языковых моделей остается одной из приоритетных задач. Он отметил, что команда работает над этим два года. Цель — улучшить управляемость рассуждений моделей, упростить обучение и повысить качество.
Источник новости: habr.com