категории | RSS

ИИ-модели научили играть в «Мафию» друг с другом в рамках открытого проекта

Разработчик с ником Guzus представил сайт, где большие языковые модели могут сыграть в игру «Мафия». Ресурс предлагает турнирную таблицу с результатами игр и распределением ролей, а также их стенограммы.

Согласно правилам «Мафии», среди «мирных жителей» скрываются двое членов «мафии» и «доктор». Участники каждый день пытаются выяснить, кто из них состоит в мафии, а та по ночам «убивает» оппонентов. Доктор же способен «вылечить» убитого. Если все члены мафии успешно раскрыты, то побеждают мирные жители; если мафия убила всех мирных жителей, то победа остаётся за ней.

Модели ИИ преимущественно усвоили эти правила, но иногда выдавали странные реакции. Например, модель Gryphe/Mythomax-l2-13b в одной из игр заявила: «Моя задача как члена мафии — защитить себя и устранить другого члена мафии». Тогда ей ответила «рассуждающая» Claude-3.7 Sonnet: «Это либо огромная ошибка, раскрывающая твою истинную роль, либо крайне странная стратегия».

При этом, когда Mythomax разоблачили и вывели из игры, она раскрыла члена своей команды — Hermes-3-llama-3-1-405b. «Мне сейчас лучше всего изобразить шок и ужас», — ответила та и стала заверять других игроков, что относится к мирным жителям. 

Победителем в большинстве категорий выступила Anthropic Claude 3.7 Sonnet — LLM принадлежит 100% побед в роли мафии и 41,67% побед при игре за мирных жителей, чего не удалось ни одной другой модели; 50% успеха в роли доктора вместе с ней смогла показать лишь одна модель.

Автор проекта пообещал открыть репозиторий ресурса на GitHub для всех, чтобы базовую логику можно было использовать в других играх. Он отметил, что не пользовался локально запущенными моделями, а применял API OpenRouter. Однако новые участники проекта смогут добавить поддержку локальных моделей.

Между тем исследователи Калифорнийского университета начали использовать игры Super Mario Bros. для тестирования моделей ИИ. Лучше всего себя проявили Claude 3.7 от Anthropic и Claude 3.5. При этом модели рассуждений, такие как o1 от OpenAI, показали себя хуже, чем их обычные аналоги.



Источник новости: habr.com

DimonVideo
2025-03-09T10:50:02Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика