После появления ChatGPT, метод обучения RLHF («Обучение с подкреплением от человеческой обратной связи») стал горячей темой среди учёных.
Однако новый метод от Google, названный RLAIF («Обучение с подкреплением от ИИ обратной связи»), позволяет искусственному интеллекту обучаться без помощи людей.
Исследователи обнаружили, что RLAIF эффективен в 50% случаев, не требуя при этом помощи человеческих маркировщиков. Данный метод, наряду с RLHF, превосходит традиционные методы обучения в 70% случаев.
Обычно для обучения больших языковых моделей, таких как ChatGPT, используется RLHF. Но он требует много работы со стороны людей, которые должны оценить ответы ИИ.
RLAIF же позволяет искусственному интеллекту улучшать себя без человеческого вмешательства, решая проблему необходимости в больших объёмах человеческих маркировок.
Исследование Google продемонстрировало, что RLAIF может быть хорошей альтернативой RLHF, освобождая людей от необходимости участвовать в процессе обучения ИИ.
Источник новости: www.ferra.ru