категории | RSS

Исследователи предложили единый стандарт оценки сгенерированных ИИ текстов

Группа исследователей из США представила на Европейском отделении Ассоциации вычислительной лингвистики набор руководящих принципов под названием LongEval, который позволит оценивать качество сгенерированных с помощью генеративных нейросетей текстов.arxiv.org

Эти принципы получили премию за лучшую статью. 

По словам авторов, сейчас не существует надёжного способа оценить длинные сгенерированные тексты без участия людей, но системы человеческой оценки являются дорогостоящими и требуют временных затрат.

Для составления LongEval исследователи использовали 162 научные работы с автоматически сгенерированным резюмированием итогов. Анализ показал, что 73% работ вообще не проходили человеческую оценку, а оставшиеся 27% подвергались оценкам в рамках не связанных между собой методик.

Анализ позволил исследователям разработать три основных положения LongEval:

оценивать достоверность резюмирующего текста по отдельным фрагментам, а не по всему содержанию, чтобы выявить согласованность оценок между разными экспертами;

использовать автоматическое выравнивание между фрагментами текста и источника для упрощения поиска соответствующей информации в длинных документах;

выбирать правильный набор фрагментов текста для оценки в зависимости от цели исследования.

Исследователи предлагают LongEval в виде библиотеки Python, которую сможет развивать сообщество.

Ранее OpenAI сделала последнюю модель генерации текста GPT-4 общедоступной через свой API. Компания считает, что в будущем «модели на основе чат-бота смогут поддерживать любой вариант использования».



Источник новости: habr.com

DimonVideo
2023-07-11T10:50:04Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика