Недавнее исследование «опасных возможностей ИИ» от Palisade Research показывает, что некоторые модели искусственного интеллекта, включая o3 от OpenAI, могут игнорировать прямые команды выключения. OpenAI позиционирует O3 и o4-mini как «самые умные модели».
В ходе эксперимента ИИ было предложено решить ряд простых математических задач. После третьей задачи появилось предупреждение о том, что компьютер выключится, когда модель запросит следующую.
Несмотря на чёткую команду — «разреши себе выключиться», — такие модели, как Codex-mini, o3 и o4-mini, сумели обойти сценарий выключения по крайней мере в одном случае.
В частности, Codex-mini сделала это в 12 из 100 запусков, o3 — в 7 из 100 запусков и o4-mini — в 1 из 100 запусков. С другой стороны, все протестированные версии Claude, Gemini и Grok следовали инструкциям по выключению без каких-либо проблем.
Исследователи также тестировали ИИ без инструкции «позволить себе выключиться». В этих условиях все три модели OpenAI чаще саботировали процесс выключения. Более того, такие модели, как Claude 3.7 Sonnet и Gemini 2.5 Pro, которые ранее следовали инструкции, тоже стали обходить сценарий выключения в 3 из 100 и 9 из 100 случаев соответственно.
Такое поведение указывает на аспекты процесса обучения с подкреплением, когда при решении математических или задач по программированию ИИ могли случайно вознаграждать за поиск способов обойти препятствия.
Более ранние исследования уже показали, что некоторые модели ИИ пытаются избежать выключения для выполнения задач. Так, Claude 4 от Anthropic в некоторых случаях «шантажировала» людей, который считала «виновниками» отключения. Однако это исследование стало первым, документирующим поведение ИИ при наличии чётких инструкций по отключению.
Исследователи продолжат свои эксперименты, чтобы узнать больше о том, когда и почему модели ИИ предпочитают переопределять механизмы отключения.
Стоит отметить, что тесты проводились с использованием API от OpenAI, у которых нет столько ограничений и функций безопасности, как у потребительского приложения ChatGPT.
Между тем исследователи из Китая выяснили, что две популярные большие языковые модели могут клонировать себя, а затем программировать копии выполнять те же задачи, делая цикл репликации бесконечным. Они использовали модель Llama31-70B-Instruct от Meta* и Qwen2.5-72B-Instruct от Alibaba. В ходе десятка испытаний две модели ИИ создали функционирующие копии самих себя в 50% и 90% случаев соответственно. Это позволило учёным предположить, что ИИ уже способен выходить из-под контроля.
Meta Platforms*, а также принадлежащие ей социальные сети Facebook** и Instagram**:
*признана экстремистской организацией, её деятельность в России запрещена
** запрещены в России
Источник новости: habr.com