категории | RSS

OpenAI представила новую систему обучения искусственного интеллекта, которая учит модели честно рассказывать о собственных ошибках и нежелательных действиях пользователя и самой системы. Подход получил название "исповедь" (confession).

Модель создает второй вывод, отдельный от основного ответа, где честно сообщает о допущенных отклонениях в своем поведении, чтобы угодить пользователю. Главный ответ оценивается по множеству параметров, тогда как исповедь тренируется только на честности. Исследователи обучили версию GPT-5 Thinking создавать такие отчеты и тестировали на датасетах, провоцирующих нежелательное поведение вроде обмана или нарушения правил.

Проблема заключается в том, что большие языковые модели часто обучаются выдавать ответы, которые кажутся желательными для пользователя. Это приводит к угодничеству или уверенному изложению галлюцинаций – выдуманной информации, которую ИИ представляет как факт. Особенно сильно это стало проявляться в версии 4о и последовавшией за ней GPT5.

Новая система обучения побуждает модель давать дополнительный ответ о том, как она пришла к основному результату. При этом "исповеди" оцениваются исключительно по честности, тогда как основные ответы проверяются по множеству параметров – полезности, точности и соответствию инструкциям.

OpenAI отмечает, что большинство ошибок происходит из-за искренней путаницы модели в неоднозначных инструкциях, а не из-за намеренного обмана. Компания планирует масштабировать исследование для проверки стабильности метода.



Источник новости: shazoo.ru

DimonVideo
2025-12-05T00:43:02Z

Здесь находятся
всего 0. За сутки здесь было 0 человек