категории | RSS

Reuters: Meta* выпускает модель искусственного интеллекта, которая может проверять работу других ИИ-моделей

В пятницу компания Meta* представила новую серию моделей искусственного интеллекта (ИИ) от своего исследовательского подразделения, включая инструмент под названием "Самообучающийся оценщик" (Self-Taught Evaluator). Этот инструмент может существенно сократить участие человека в процессе разработки ИИ.

Новый выпуск последовал за августовской статьей компании, где подробно описывалось, как этот инструмент использует технику "цепочки рассуждений" (chain of thought), применяемую в моделях OpenAI, для надёжной оценки ответов ИИ. Суть техники заключается в том, чтобы разбивать сложные задачи на последовательные логические шаги. Это повышает точность ответов на сложные вопросы в таких областях, как наука, программирование и математика.

Отличительной особенностью подхода компании стало то, что они использовали полностью сгенерированные ИИ данные для обучения модели-оценщика, исключив участие человека на этом этапе. Такая возможность, оценивать ИИ с помощью другого ИИ, открывает перспективу создания автономных агентов, которые смогут учиться на собственных ошибках и развиваться без вмешательства человека.

Многие в области ИИ видят в таких агентах будущее: цифровые помощники, которые будут достаточно умны, чтобы выполнять широкий круг задач без участия людей. Самообучающиеся модели могут исключить необходимость в дорогом и трудоёмком процессе, известном как "Обучение с подкреплением с использованием человеческой обратной связи" (Reinforcement Learning from Human Feedback, RLHF). Этот метод требует участия экспертов для маркировки данных и проверки ответов на сложные запросы.

"Мы надеемся, что по мере развития ИИ он будет становиться всё лучше в самопроверке, и в конечном итоге его способности превзойдут человеческие," — говорит Джейсон Вестон, один из исследователей Meta*. "Способность к самообучению и самооценке — ключ к достижению сверхчеловеческого уровня ИИ."

Другие компании, такие как Google и Anthropic, также занимаются исследованиями в области RLAIF (Reinforcement Learning from AI Feedback), но, в отличие от Meta*, они не публикуют свои модели для публичного использования.

Источник

*признана в РФ экстремистской организацией и запрещена



Источник новости: habr.com

DimonVideo
2024-10-18T22:50:03Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика