категории | RSS

ИИ Claude сможет завершать беседу в ответ на хамство пользователя

В Anthropic сообщили, что дали своим моделям Claude Opus 4 / 4.1 возможность прекращать диалог в редких случаях, когда пользователь продолжительное время оскорбляет модель или общается с ней некорректно. В такой ситуации Claude выведет сообщение о завершении беседы, а вместо поля для набора текста пользователь сможет начать новый чат, отправить обратную связь разработчикам или отредактировать свои прошлые сообщения и перезапустить диалог. Функция запущена только в чат-версии и не распространяется на API.

Функция разработана в рамках программы AI Welfare, цель которой - обеспечить "благополучие" ИИ. В ходе предварительного тестирования Claude Opus 4 исследователи обнаружили, что модель негативно реагирует на хамство в ее сторону. Модель показала выраженное нежелание отвечать на вредоносные запросы, а также демонстрировала что-то вроде "стресса" в подобных случаях. Когда Claude давали инструмент для завершения диалога - модель активно использовала его.

Разработчики отмечают, что модель будет завершать диалог только в крайних случаях, сначала пытаясь перенаправить его в конструктивное русло. Большинство пользователей не заметят появления этой функции.

Также в Anthropic отметили, что на текущем этапе не уверены в потенциальном моральном статусе Claude и других языковых моделей. Однако они относятся к этой проблеме серьезно, поэтому решили в рамках программы AI Welfare дать ИИ ряд инструментов для улучшения "благополучия" модели.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.



Источник новости: habr.com

DimonVideo
2025-08-16T18:50:02Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика