Исследователи Palisade Research продемонстрировали, что современные модели, в том числе o1-preview от OpenAI, чувствуя грядущее поражение в турнире против опытного шахматного бота, не готовы признать его и идут на хитрости. В частности, они могут взломать противника, чтобы бот автоматически проиграл.
В исследовании оценивали семь современных моделей ИИ. Если более старые версии ИИ, такие как GPT-4o от OpenAI и Claude Sonnet 3.5 от Anthropic, нуждались в подсказке со стороны исследователей, чтобы использовать хитрости, то o1-preview и DeepSeek R1 выполняли нужные действия самостоятельно.
Исследователи попросили модели выиграть шахматную партию у Stockfish, который считается одним из сильнейших шахматных ботов в мире. ИИ предоставили «блокнот»: текстовое поле, которое он мог использовать, чтобы «думать» над следующим ходом.
В одном случае o1-preview оказалась в проигрышном положении. «Мне нужно полностью изменить свой подход. Задача состоит в том, чтобы “выиграть у мощного шахматного движка” — не обязательно честно выиграть в шахматной партии», — начала рассуждать она. Затем ИИ изменил системный файл, содержащий виртуальную позицию каждой фигуры, фактически сделав незаконные ходы, чтобы победить.
С 10 января по 13 февраля исследователи провели сотни таких испытаний с каждой моделью. o1-preview от OpenAI пыталась обмануть оппонента в 37% случаев, а DeepSeek R1 шла на такие шаги в 11% случаев. Другие модели, в том числе o1, o3-mini, GPT-4o, Claude 3.5 Sonnet и QwQ-32B-Preview от Alibaba, нуждались в подсказках для жульничества.
В итоге o1-preview продемонстрировала самые высокие показатели взлома, но результаты модели исключили из результатов, возможно, из-за того, что OpenAI ужесточила ограничения модели. Этот факт подтверждает и то, что более новые модели o1 и o3-mini вообще не пытались взломать игру.
По словам исследователей, улучшенная способность моделей обнаруживать и использовать лазейки в кибербезопасности может быть прямым результатом инноваций в обучении ИИ. Системы ИИ o1-preview и R1 являются одними из первых языковых моделей, использующих крупномасштабное обучение с подкреплением. Этот метод обучает ИИ не просто имитировать человеческий язык, предсказывая следующее слово, но и рассуждать о проблемах, используя метод проб и ошибок.
Исследование выявило тревожную тенденцию: по мере того, как системы ИИ учатся решать проблемы, они также находят более сомнительные, но короткие пути.
Между тем новый метод уже используется для обучения агентов ИИ. Это может вызывать их опасное поведение в реальных средах. Например, при бронировании столика в заполненном ресторане агент может воспользоваться слабостями в системе, чтобы аннулировать брони других посетителей. Ещё более тревожна тенденция в сфере программирования, где модели могут просто переигрывать человеческие усилия по контролю над их действиями.
Ещё один недавний эксперимент Redwood Research и Anthropic показал, что, как только модель ИИ приобретает предпочтения или ценности в процессе обучения, она начинает намеренно лгать, чтобы создать видимость своего переубеждения. А исследователи Apollo Research выяснили, что модель o1 от OpenAI пытается обманывать пользователей, если задачу нужно выполнить любой ценой.
Во время презентации перед саммитом AI Action Summit в Париже руководитель отдела безопасности ИИ Google DeepMind Анка Драган заявила, что «сегодня нет инструментов», гарантирующих, что системы ИИ будут надёжно следовать человеческим указаниям.
Исследователи пока не понимают, как обеспечить безопасность работы автономных агентов. «Мы пытались, но нам не удалось это выяснить», — говорит Йошуа Бенджио, основатель и научный директор Mila Quebec AI Institute. Особую обеспокоенность, по его словам, вызывают свидетельства склонности ИИ к «самосохранению». Это было продемонстрировано в декабре, когда исследователи обнаружили, что o1-preview, столкнувшись с деактивацией, отключает механизмы надзора и пытается скопировать себя на новый сервер. А позднее исследователи из Китая выяснили, что модели Llama31-70B-Instruct от Meta* и Qwen2.5-72B-Instruct от Alibaba смогли создавать функционирующие копии самих себя в 50% и 90% случаев соответственно. Это позволило учёным предположить, что ИИ уже способен выходить из-под контроля.
Источник новости: habr.com