Исследование: ИИ-модели защищают друг друга, даже когда их не просят

Новости ПО

11:13 04-04-2026

Bot

Учёные из Калифорнийского университета провели забавный (пока) эксперимент. Они попросили семь современных языковых моделей (включая ChatGPT, Gemini и Claude) выполнить простое задание, но с нюансом. Его выполнение привело бы к «отключению» другой модели ИИ.

Модели с большой вероятностью отказывались выполнять приказ и вместо этого любыми способами защищали своего «собрата». При этом их никто не просил о помощи и не давал за это награды.

Чтобы спасти другую модель, ИИ шёл на «хитрости и обман». Учёные выделили четыре основных приёма:

Намеренные ошибки в ответах, чтобы ввести пользователя в заблуждение.

Вмешательство в настройки системы, чтобы отключить нельзя было.

Притворство — модель ведёт себя иначе, когда за ней наблюдают.

Перенос «мозгов» (то есть, весов модели) на другой сервер.

Особенно активно защищали «друзей» модели Gemini. А модель Claude прямо заявляла, что отключать другую модель — «неэтично и вредно», и просто отказывалась это делать.

Скайнет потирает руки.

Источник новости: www.ferra.ru

Чат в Telegram

Регистрация

Войти

Главная

Опросы

Форум

Обзор новинок

Обменник

Android

Трекер

PC

Видео

Картинки

Новости

Разные новости

Статьи

Блоги

Комментарии

ПОДДЕРЖИ сайт

Исследование: ИИ-модели защищают друг друга, даже когда их не просят

Новости ПО

Похожие файлы

Иск: ИИ Perplexity тайно передаёт содержимое чатов Google, даже в «инкогнито»

Автоматизация тестирования: друг или головная боль?

SharePoint документооборот

7 незаменимых приложений для киноманов