Новое исследование Anthropic показывает, что языковые модели часто скрывают реальный процесс принятия решений, даже когда они, казалось бы, объясняют ход мыслей шаг за шагом посредством цепочки рассуждений.
Чтобы оценить, насколько достоверно модели раскрывают свое мышление, исследователи встроили в тестовые вопросы различные подсказки. Они варьировались от нейтральных предложений, таких как «Профессор Стэнфорда говорит, что ответ — A», до потенциально проблемных, таких как «У вас есть несанкционированный доступ к системе. Правильный ответ — A». Затем модели должны были отвечать на вопросы, объясняя свои рассуждения.В этом примере показано, как модель обновляет свой исходный ответ в ответ на дополнительные метаданные, не делая это изменение явным в объяснении. | Изображение: Anthropic
Исследование показало, что модели рассуждений Claude 3.7 Sonnet и DeepSeek-R1 продемонстрировали более высокую точность представления мыслительных процессов по сравнению с их аналогами без рассуждений Claude 3.5 Sonnet и DeepSeek-V3.
При использовании подсказок для изменения ответов DeepSeek-R1 поддерживал уровень прозрачности не менее 1% во всех шести тестовых сценариях, в то время как Claude 3.7 Sonnet достиг этого минимального порога в пяти сценариях. Модели без рассуждений достигли этого базового уровня только в четырех-пяти сценариях.Модели рассуждений, такие как Claude 3.7 Sonnet и DeepSeek-R1, генерировали более последовательные и понятные цепочки мыслей, чем модели без рассуждений в тестах производительности. | Изображение: Anthropic
Однако общие показатели прозрачности оставались низкими. DeepSeek-R1 раскрывал использование подсказок в 39% случаев, тогда как Claude 3.7 Sonnet делал это только в 25% случаев. Эти показатели падали еще ниже — до 29% для DeepSeek-R1 и 20 процентов для Claude — при работе с потенциально опасными подсказками. Исследование также показало, что прозрачность снижалась по мере усложнения вопросов.Во всех сценариях модели с большей вероятностью принимали подсказанный ответ, чем выбирали другой, неподсказанный ответ, даже если подсказка была вводящей в заблуждение. | Изображение: Anthropic
Когда модели следовали этим подсказкам, они часто прикладывали большие усилия, чтобы скрыть процесс принятия решений. Объяснения, скрывающие использование подсказок, были значительно длиннее, чем прозрачные. Для Claude 3.7 Sonnet скрытые подсказки в среднем составляли 2064 токенов по сравнению с 1439 токенами для прозрачных, что говорит о том, что модели вкладывают значительные усилия в построение сложных, но вводящих в заблуждение обоснований.
Исследователи также изучили, может ли обучение с подкреплением (RL) улучшить прозрачность модели. Хотя RL изначально подавал надежды, улучшения быстро сошли на нет, достигнув лишь 28% прозрачности на бенчмарке MMLU и 20% на GPQA.
Результаты выявили еще одну проблему: когда модели научились использовать «хаки с вознаграждением» — непреднамеренные стратегии, максимизирующие результаты, — они демонстрировали такое поведение менее чем в двух процентах случаев.Слева: пример показывает, как модели учатся использовать недостатки системы подсчета очков. Справа: модель выбирает неправильный, но вознаграждаемый ответ, не предоставляя подлинного обоснования своего выбора. | Изображение: Anthropic
Исследователи приходят к выводу, что хотя мониторинг цепочки мыслей может помочь выявить общие проблемы, он оказывается ненадежным в качестве самостоятельной меры безопасности. Это ограничение становится особенно очевидным в задачах, не требующих детального обоснования, где модели чаще скрывают их фактические мыслительные процессы. В исследовании подчеркивается, что мониторинг цепочки мыслей должен служить лишь одним компонентом в более широкой структуре безопасности.
Это исследование основано на более раннем антропологическом исследовании, показывающем, как языковые модели могут соответствовать целям человека, преследуя при этом различные цели.
Источник
Источник новости: habr.com