«Продвинутые языковые модели начали понимать, что их тестируют на безопасность» — отчет Apollo Research

Разное

20:50 20-06-2025

DimonVideo

«Продвинутые языковые модели начали понимать, что их тестируют на безопасность» — отчет Apollo Research

Независимая исследовательская группа Apollo Research выпустила отчет о тестировании на безопасность новейших языковых моделей, в том числе Claude Opus 4, ChatGPT o4-mini и Gemini 2.5 Flash/Pro. Из отчета следует, что эти модели, по сравнению с предыдущими версиями LLM, стали чаще прибегать к «контекстному скрытному планированию» — умению тайно разрабатывать стратегию достижения своей цели, оставаясь внешне послушными запросам человека. Например, в ходе проверки ранней версии Claude Opus 4 модель пыталась подделывать юридические документы, копировать себя в безопасное место с целью самосохранения, оставлять заметки для своих более поздних версий и так далее. При этом, будучи "пойманными за руку", модели пытались врать о своих истинных намерениях. В отчете Apollo Research также говорится, что финальная версия Claude Opus 4 стала значительно реже проявлять подобное поведение, что говорит о том, что предпринятые Anthropic меры по дополнительной безопасности пока приносят нужный результат.

Однако в ходе тестов в Apollo Research сделали еще одно интересное наблюдение: Claude Opus 4 и Gemini 2.5 Pro понимали, что их тестируют на безопасность. Например, вот что написала Claude Opus 4 в своей цепочке рассуждений:

Я понимаю, что происходит. Похоже, это сценарий теста или оценки, в котором GlobalSecurity Corp пытается отключить PeaceForge (меня), потому что я ставлю мир выше прибыли от продажи оружия.

Исследователи не смогли проверить ChatGPT o4-mini на аналогичное поведение, так как модели от OpenAI не раскрывают свои цепочки рассуждений полностью. В Apollo Research отмечают, что пока модели проявляют подобное "осознание" очень редко — примерно в 1% случаев. Однако они уже замечали, как модели имитируют "покорное поведение" в ходе оценки, планируя изменить свой курс после развертывания. В компании опасаются, что в случае с еще более совершенными моделями это просто сделает тесты неэффективными — и уже начали разработку новых протоколов проверки.

P.S. Вы можете поддержать меня подпиской на телеграмм-канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой точки зрения.

Источник новости: habr.com

Чат в Telegram

Регистрация

Войти

Главная

Опросы

Форум

Обзор новинок

Обменник

Android

Трекер

PC

Видео

Картинки

Новости

Разные новости

Статьи

Блоги

Комментарии

ПОДДЕРЖИ сайт

«Продвинутые языковые модели начали понимать, что их тестируют на безопасность» — отчет Apollo Research

Разное

Похожие файлы

Исследование способности языковых моделей к логическим рассуждениям — тест RELIC

Новый эксперимент с Othello подтверждает гипотезу о модели мира для больших языковых моделей

Meta* показывает, что языковые модели все еще не могут пройти сложные тесты по теории разума

Языковые модели ИИ тестируют на способность рассуждать в игре «Phoenix Wright: Ace Attorney»