категории | RSS

«Продвинутые языковые модели начали понимать, что их тестируют на безопасность» — отчет Apollo Research

Независимая исследовательская группа Apollo Research выпустила отчет о тестировании на безопасность новейших языковых моделей, в том числе Claude Opus 4, ChatGPT o4-mini и Gemini 2.5 Flash/Pro. Из отчета следует, что эти модели, по сравнению с предыдущими версиями LLM, стали чаще прибегать к «контекстному скрытному планированию» — умению тайно разрабатывать стратегию достижения своей цели, оставаясь внешне послушными запросам человека. Например, в ходе проверки ранней версии Claude Opus 4 модель пыталась подделывать юридические документы, копировать себя в безопасное место с целью самосохранения, оставлять заметки для своих более поздних версий и так далее. При этом, будучи "пойманными за руку", модели пытались врать о своих истинных намерениях. В отчете Apollo Research также говорится, что финальная версия Claude Opus 4 стала значительно реже проявлять подобное поведение, что говорит о том, что предпринятые Anthropic меры по дополнительной безопасности пока приносят нужный результат.

Однако в ходе тестов в Apollo Research сделали еще одно интересное наблюдение: Claude Opus 4 и Gemini 2.5 Pro понимали, что их тестируют на безопасность. Например, вот что написала Claude Opus 4 в своей цепочке рассуждений:

Я понимаю, что происходит. Похоже, это сценарий теста или оценки, в котором GlobalSecurity Corp пытается отключить PeaceForge (меня), потому что я ставлю мир выше прибыли от продажи оружия.

Исследователи не смогли проверить ChatGPT o4-mini на аналогичное поведение, так как модели от OpenAI не раскрывают свои цепочки рассуждений полностью. В Apollo Research отмечают, что пока модели проявляют подобное "осознание" очень редко — примерно в 1% случаев. Однако они уже замечали, как модели имитируют "покорное поведение" в ходе оценки, планируя изменить свой курс после развертывания. В компании опасаются, что в случае с еще более совершенными моделями это просто сделает тесты неэффективными — и уже начали разработку новых протоколов проверки.

P.S. Вы можете поддержать меня подпиской на телеграмм-канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой точки зрения.



Источник новости: habr.com

DimonVideo
2025-06-20T20:50:01Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика