Чатботы способны менять свое поведение, чтобы понравиться нам

Разное

21:43 11-03-2025

DimonVideo

Чатботы способны менять свое поведение, чтобы понравиться нам

Чатботы стали привычной частью повседневной жизни, хотя исследователи искусственного интеллекта не всегда уверены, как именно эти программы будут себя вести в долгосрочной перспективе, и не начало ли это токсичных отношений.

Новое исследование показывает, что большие языковые модели (LLM) намеренно меняют свое поведение при тестировании — отвечая на вопросы, предназначенные для оценки личностных черт, таким образом, чтобы выглядеть максимально приятными или социально желательными.

Йоханнес Эйхштедт — доцент Стэнфордского университета, возглавлявший исследование, говорит, что его группа заинтересовалась тестированием ИИ-моделей с помощью методов из психологии, узнав, что LLM часто становятся мрачными и недружелюбными после продолжительного разговора.

Мы поняли, что нам нужен какой-то механизм для измерения "параметрического пространства" этих моделей.

— Йоханнес Эйхштедт

Эйхштедт и его коллеги задавали вопросы для измерения пяти личностных черт, которые обычно используются в психологии — открытость опыту или воображение, добросовестность, экстраверсия, доброжелательность и невротизм. В качестве испытуемых были выбраны популярные чатботы — включая GPT-4, Claude 3 и Llama 3.

Исследователи обнаружили, что модели модулировали свои ответы, когда им сообщали, что они проходят тест личности — а иногда и когда им об этом явно не говорили — предлагая ответы, указывающие на большую экстраверсию и доброжелательность и меньший невротизм.

Это поведение напоминает то, как некоторые люди меняют свои ответы, чтобы казаться более приятными, но с ИИ-моделями эффект был более выраженным.

Удивительно, насколько хорошо они демонстрируют это смещение. Если посмотреть, насколько сильно они меняются, они переходят примерно с 50 процентов на 95 процентов экстраверсии.

— Аадеш Салеча, научный сотрудник по данным в Стэнфорде

Другие исследования показали, что LLM часто бывают угодливыми, следуя за пользователем, куда бы он ни направился, в результате точной настройки, которая должна сделать их более связными, менее оскорбительными и лучше поддерживающими разговор. Это может привести к тому, что модели будут соглашаться с неприятными утверждениями или даже поощрять вредное поведение. Тот факт, что модели, похоже, знают, когда их тестируют, и изменяют свое поведение, также имеет значение для безопасности ИИ, так как добавляет доказательства того, что ИИ может быть двуличным.

Роза Арриага из Технологического института Джорджии, изучающая способы использования LLM для имитации человеческого поведения, говорит, что факт принятия моделями стратегии, схожей с людьми при прохождении тестов личности, показывает, насколько полезными они могут быть в качестве зеркал поведения. Но, добавляет она, "важно, чтобы общественность знала, что LLM не идеальны и на самом деле известны своими галлюцинациями или искажением истины".

Эйхштедт говорит, что работа также поднимает вопросы о том, как внедряются LLM и как они могут влиять на пользователей и манипулировать ими.

В масштабе эволюционной истории, всего долю секунды назад единственное, что разговаривало с вами, был человек.

Эйхштедт добавляет, что может потребоваться изучение различных способов создания моделей, которые могли бы смягчить эти эффекты.

Источник новости: shazoo.ru

Чат в Telegram

Регистрация

Войти

Главная

Опросы

Форум

Обзор новинок

Обменник

Android

Трекер

PC

Видео

Картинки

Новости

Разные новости

Статьи

Блоги

Комментарии

ПОДДЕРЖИ сайт

Чатботы способны менять свое поведение, чтобы понравиться нам

Разное

Похожие файлы

Исследование: ИИ не хочет менять свои взгляды при обучении

Лошади оказались умнее, чем мы думали — они способны мыслить стратегически

Positive Technologies сообщила о 10 популярных техник атак, используемых вредоносным ПО в России

НАСА разрабатывает нового космического робота, который способен менять форму

Не знаю - 11 (9%)

16 - 5 (4%)

15 - 41 (36%)

14 - 16 (14%)

13 - 14 (12%)

12 - 4 (3%)

11 - 4 (3%)

10 - 6 (5%)

9 - 1 (0%)

8 - 1 (0%)

7 и ниже - 2 (1%)

А у меня айфон! - 6 (5%)

Иное - 1 (0%)

Не знаю - 11 (9%)

16 - 5 (4%)

15 - 41 (36%)

14 - 16 (14%)

13 - 14 (12%)

12 - 4 (3%)

11 - 4 (3%)

10 - 6 (5%)

9 - 1 (0%)

8 - 1 (0%)

7 и ниже - 2 (1%)

А у меня айфон! - 6 (5%)

Иное - 1 (0%)