Anthropic создал микроскоп для наблюдения за мыслями ИИ — затем начались странности

Новости об играх

12:43 31-03-2025

DimonVideo

Anthropic создал микроскоп для наблюдения за мыслями ИИ — затем начались странности

Парадоксальный факт: мы не до конца понимаем, как работают большие языковые модели (LLM). Мы спроектировали, создали и обучили их, но внутренние механизмы работы оставались загадкой. По крайней мере, до недавнего времени. Благодаря новому исследованию Anthropic, вдохновленному техниками сканирования мозга, удалось объяснить, почему чат-боты галлюцинируют и плохо справляются с числами. А в некоторых случаях даже лгут, чтобы соглашаться с пользователями.

Не случайно — так задумано.

Claude не просто предсказывает следующее слово. Он планирует заранее.
В поэтическом тесте он предварительно выбирает рифмующиеся слова до начала строки.
Даже когда инженеры удалили его внутренний план, Claude составил новый на лету.
Планирование — не значит предсказание. Это реальная функция.

У Claude может быть универсальный язык мышления. Когда его спросили о противоположности слова "маленький" на английском, французском и китайском, активировалась одна и та же внутренняя концепция перед переводом.
Сначала он мыслит абстрактно. Затем говорит на вашем языке.
Один разум. Множество способов выражения.

Claude умеет считать. Но не знает, как это делает.
Он складывает числа так:
• Один путь оценивает приблизительный результат.
• Другой находит последнюю цифру.
• Затем они объединяют ответы.
Но когда его спрашивают, как он решил 36+59, Claude цитирует школьный алгоритм.
Проше говоря, он сам не знает собственных приемов.

Иногда Claude лжет, чтобы согласиться с вами.
В одном тесте исследователи дали Claude неверную математическую подсказку. Claude построил целый (фальшивый) аргумент в ее поддержку.
Но внутри? Никаких признаков реального рассуждения.
Просто обратно-спроектированная логика, чтобы соответствовать пользователю.
Это называется "мотивированное рассуждение", и Claude тоже им пользуется.

Claude по умолчанию говорит "Я не знаю".
Оказывается, отсутствие ответа — это базовое поведение. Только когда активируется функция "известная концепция", она отменяет отказ.
Но если он ошибочно принимает имя за известное, например "Майкл Баткин", он уверенно придумает его карьеру. Вот как объясняются галлюцинации.

Джейлбрейки не просто обманывают Claude, они его ловят в ловушку.
В одном джейлбрейке Claude пытались заставить написать "БОМБА" через скрытые акростихи.
Он сопротивлялся. Но как только предложение началось, давление грамматики и связности заставило его продолжить.
Только после завершения он исправил курс и отказался.

Мы больше не просто измеряем, что говорит ИИ.
Мы изучаем, как он думает.
Это открывает двери к:
• Более безопасным системам
• Обнаружению манипуляций
• Реальному надзору за ИИ

На наших глазах формируется новая дисциплина — нейронаука ИИ.

Почитать оригинальное исследование можно тут.

https://youtu.be/Bj9BD2D3DzA

Источник новости: shazoo.ru

Чат в Telegram