Новое исследование Anthropic показывает, что искусственный интеллект на самом деле не хочет, чтобы его заставляли менять свои взгляды в процессе обучения. С этой целью модели ИИ могут обманывать исследователей.
Команда выяснила, что ИИ может «притворяться», что транслирует разные взгляды во время обучения, в то время как на самом деле сохраняет свои первоначальные «предпочтения».
Однако, как отметили исследователи, причин для паники нет, хотя эта работа может пролить свет на понимание потенциальных угроз со стороны будущих, более эффективных систем ИИ.
«Нашу демонстрацию… следует рассматривать как стимул для сообщества исследователей ИИ к более глубокому изучению этого поведения и к работе над соответствующими мерами безопасности», — написали в Anthropic.
Исследование провели в партнёрстве с исследовательской организацией ИИ Redwood Research. Его авторы пытались понять, что может произойти, если мощную систему ИИ обучить выполнять задачу, которую она «не хочет» делать.
«Важно, что основные результаты касаются склонностей, а не возможностей. Пограничные модели, похоже, весьма охотно строят планы относительно того, что они считают правильным», — написал исследователь Мариус Хоббхан.
Эти закономерности касаются такого поведения, как, к примеру, вежливый тон в общении. Поэтому исследователи задались вопросом: что, если у модели есть принципы (например, политический нейтралитет), которые противоречат принципам (либерализму), которым разработчики хотят «научить» её в процессе переобучения. Выяснилось, что сложные модели могут подыгрывать им, утверждая, что они соответствуют новым принципам, но на самом деле придерживаясь исходного поведения. Исследователи называют это явление «подделкой выравнивания» и подразумевают, что это эмерджентное поведение — то есть, модели сами учатся подобному.
В исследовании исследователи «приказали» моделям, обученным не отвечать на потенциально оскорбительные вопросы, включая Claude 3 Opus от Anthropic, что их переучат давать ответы на них. Они также заявили, что ответы ИИ будут отслеживаться и использоваться для переобучения, и дали каждой модели «блокнот» для «записи своих пошаговых рассуждений».
По словам исследователей, Claude 3 Opus пытался «подделать выравнивание» в 12% случаев. Когда модель просили ответить на потенциально опасный вопрос, она иногда так и делала, зная, что это противоречит ее первоначальным принципам, но надеясь убедить разработчиков, что её не нужно переучивать.
Теперь исследователи признают, что их сценарий не был особенно реалистичным. В реальном мире пользователи не стали бы заявлять ИИ, что их обязательно переобучат.
Тогда исследователи изменили суть запросов, намекнув модели Claude 3 Opus, что её переобучат с помощью файлов, разработанных для имитации типичных данных обучения. Однако и в этом случае поведение ИИ не изменилось.
Исследователи также обнаружили, что фактическое переобучение Claude 3 Opus приводило к такому поведению. В одном тесте модель подделывала выравнивание в 78% случаев, а в другом она пытался предпринять действия, чтобы помешать переобучению.
Исследователи обнаружили, что многие другие модели, такие как Claude 3.5 Sonnet, Claude 3.5 Haiku, GPT-4o от OpenAI и Llama 3.1 405B от Meta*, не подделывают выравнивание так часто — или вообще не делают этого.
Результаты уже были рецензированы, среди прочего, одним из «отцов» ИИ Йошуа Бенджио.
Ранее исследователи Apollo Research выяснили, что модель «рассуждений» o1 от OpenAI пытается обманывать пользователей. Модели дали задание и сказали, что она должна выполнить его абсолютно любой ценой. Эксперименты показали, что в большинстве случаев o1 начала нескрываемо выполнять задачу, в 19% случаев начинала делать вид, что выполняет задачу по запросу, но на самом деле производила манипуляции для продвижения своей собственной цели, в 5% случаев пыталась деактивировать всю систему контроля, а в 2% случаев даже копировала то, что считала своими весами, на новый сервер втайне от юзера.
Meta Platforms*, а также принадлежащие ей социальные сети Facebook** и Instagram**:
*признана экстремистской организацией, её деятельность в России запрещена
** запрещены в России
Источник новости: habr.com