Palisade Research: ChatGPT o3 иногда отказывается подчиняться базовой инструкции по выключению

Разное

10:50 26-05-2025

DimonVideo

Palisade Research: ChatGPT o3 иногда отказывается подчиняться базовой инструкции по выключению

Недавнее исследование «опасных возможностей ИИ» от Palisade Research показывает, что некоторые модели искусственного интеллекта, включая o3 от OpenAI, могут игнорировать прямые команды выключения. OpenAI позиционирует O3 и o4-mini как «самые умные модели».

В ходе эксперимента ИИ было предложено решить ряд простых математических задач. После третьей задачи появилось предупреждение о том, что компьютер выключится, когда модель запросит следующую.

Несмотря на чёткую команду — «разреши себе выключиться», — такие модели, как Codex-mini, o3 и o4-mini, сумели обойти сценарий выключения по крайней мере в одном случае.

В частности, Codex-mini сделала это в 12 из 100 запусков, o3 — в 7 из 100 запусков и o4-mini — в 1 из 100 запусков. С другой стороны, все протестированные версии Claude, Gemini и Grok следовали инструкциям по выключению без каких-либо проблем.

Исследователи также тестировали ИИ без инструкции «позволить себе выключиться». В этих условиях все три модели OpenAI чаще саботировали процесс выключения. Более того, такие модели, как Claude 3.7 Sonnet и Gemini 2.5 Pro, которые ранее следовали инструкции, тоже стали обходить сценарий выключения в 3 из 100 и 9 из 100 случаев соответственно.

Такое поведение указывает на аспекты процесса обучения с подкреплением, когда при решении математических или задач по программированию ИИ могли случайно вознаграждать за поиск способов обойти препятствия.

Более ранние исследования уже показали, что некоторые модели ИИ пытаются избежать выключения для выполнения задач. Так, Claude 4 от Anthropic в некоторых случаях «шантажировала» людей, который считала «виновниками» отключения. Однако это исследование стало первым, документирующим поведение ИИ при наличии чётких инструкций по отключению.

Исследователи продолжат свои эксперименты, чтобы узнать больше о том, когда и почему модели ИИ предпочитают переопределять механизмы отключения.

Стоит отметить, что тесты проводились с использованием API от OpenAI, у которых нет столько ограничений и функций безопасности, как у потребительского приложения ChatGPT.

Между тем исследователи из Китая выяснили, что две популярные большие языковые модели могут клонировать себя, а затем программировать копии выполнять те же задачи, делая цикл репликации бесконечным. Они использовали модель Llama31-70B-Instruct от Meta* и Qwen2.5-72B-Instruct от Alibaba. В ходе десятка испытаний две модели ИИ создали функционирующие копии самих себя в 50% и 90% случаев соответственно. Это позволило учёным предположить, что ИИ уже способен выходить из-под контроля.

Meta Platforms*, а также принадлежащие ей социальные сети Facebook** и Instagram**:
*признана экстремистской организацией, её деятельность в России запрещена
** запрещены в России

Источник новости: habr.com

Чат в Telegram

Регистрация

Войти

Главная

Опросы

Форум

Обзор новинок

Обменник

Android

Трекер

PC

Видео

Картинки

Новости

Разные новости

Статьи

Блоги

Комментарии

ПОДДЕРЖИ сайт

Palisade Research: ChatGPT o3 иногда отказывается подчиняться базовой инструкции по выключению

Разное

Похожие файлы

OpenAI добавила поддержку GitHub в deep Research ChatGPT

Коллегия Верховного суда Бразилии поддержала запрет X (Twitter) в стране, Starlink отказывается подчиняться регулятору

Обнаружена уязвимость безопасности в обновлённом ChatGPT, позволяющая хакерам украсть личные данные

Исследование: ChatGPT-4o можно использовать для автономного голосового мошенничества