Исследователи из Оксфордского университета разработали метод, позволяющий обнаружить, когда большие языковые модели (LLM) генерируют неточные ответы, называемые "конфабуляциями". В отличие от ошибок, возникающих из-за дезинформации в обучающих данных, конфабуляции - это произвольные и часто уверенно неверные ответы LLM.
Подход, известный как семантическая энтропия, анализирует множество возможных ответов на запрос и объединяет их в кластеры на основе семантического сходства. Если преобладает один кластер, это указывает на то, что LLM, скорее всего, не уверен в формулировке, но имеет правильный ответ. И наоборот, множественные кластеры указывают на возможную конфабуляцию.
Этот метод, опробованный в различных областях - от мелочей до биографических данных, - неизменно превосходит другие методы обнаружения ошибок в выявлении ложной информации, пишут ученые. Выяснилось, что значительная часть ошибок, допускаемых LLM, связана с конфабуляцией, когда модели синтезируют правдоподобно звучащие ответы, не подкрепленные фактической достоверностью. Полученные результаты подчеркивают важность совершенствования способности LLM распознавать неопределенность и могут привести к повышению надежности генерируемых ИИ ответов в различных областях применения.
Источник новости: www.ferra.ru