В новом документе лаборатории искусственного интеллекта Cohere, Стэнфорда, Массачусетского технологического института и Ai2 обвиняется LM Arena, организация, стоящая за популярным краудсорсинговым бенчмарком в области искусственного интеллекта Chatbot Arena, в помощи избранной группе компаний, занимающихся разработкой искусственного интеллекта, в достижении более высоких результатов в рейтингах за счет конкурентов.
По словам авторов, LM Arena позволила некоторым ведущим в отрасли компаниям AI, таким как Meta*, OpenAI, Google и Amazon, провести закрытое тестирование нескольких вариантов моделей AI, а затем не публиковать оценки худших исполнителей. Это облегчило этим компаниям задачу занять лидирующие позиции в рейтинге платформы, хотя такая возможность была предоставлена не каждой фирме, говорят авторы.
«Лишь нескольким компаниям сообщили, что это частное тестирование доступно, и объем частного тестирования, которое получили некоторые компании, просто намного больше, чем другие», — сказала вице-президент Cohere по исследованиям AI и соавтор исследования Сара Хукер в интервью TechCrunch. «Это геймификация».
Chatbot Arena, созданная в 2023 году как академический исследовательский проект Калифорнийского университета в Беркли, стала эталоном для компаний, занимающихся AI. Она работает, помещая ответы двух разных моделей AI рядом в «битве» и предлагая пользователям выбрать лучшую из них. Нередко можно увидеть невыпущенные модели, соревнующиеся на арене под псевдонимом.
Голоса с течением времени влияют на оценку модели — и, следовательно, на ее место в таблице лидеров Chatbot Arena. Хотя в Chatbot Arena участвуют многие коммерческие игроки, LM Arena давно утверждает, что ее бенчмарк является беспристрастным и справедливым.
Однако авторы статьи утверждают, что обнаружили нечто иное. Одна из компаний AI, Meta*, смогла провести частное тестирование 27 вариантов моделей на Chatbot Arena в период с января по март, предшествовав выпуску Llama 4 этого технологического гиганта, утверждают авторы. При запуске Meta* публично раскрыла результаты только одной модели — модели, которая оказалась в верхней части таблицы лидеров Chatbot Arena.Диаграмма, взятая из исследования
Калифорнийского университета в Беркли Ион Стойка написал, что исследование полно неточностей и сомнительного анализа.
«Мы стремимся к справедливым, основанным на сообществе оценкам и призываем всех поставщиков моделей предоставлять больше моделей для тестирования и улучшать их работу с учетом человеческих предпочтений», — говорится в заявлении LM Arena, предоставленном TechCrunch. «Если поставщик моделей решает предоставить больше тестов, чем другой поставщик моделей, это не означает, что ко второму поставщику моделей относятся несправедливо».
Авторы статьи начали проводить свое исследование в ноябре 2024 года, узнав, что некоторые компании, занимающиеся AI, возможно, получили преимущественный доступ к Chatbot Arena. В общей сложности они измерили более 2,8 миллионов боев Chatbot Arena за пятимесячный период.
Авторы утверждают, что нашли доказательства того, что LM Arena позволила некоторым компаниям, занимающимся разработкой искусственного интеллекта, включая Meta*, OpenAI и Google, собирать больше данных из Chatbot Arena, заставляя свои модели появляться в большем количестве модельных «битв». По мнению авторов, эта повышенная частота выборки давала этим компаниям несправедливое преимущество.
Использование дополнительных данных из LM Arena может улучшить производительность модели на Arena Hard, другом эталонном тесте LM Arena, на 112%. Однако LM Arena заявила в сообщении на X, что производительность Arena Hard не коррелирует напрямую с производительностью Chatbot Arena.
Хукер заявил, что неясно, каким образом некоторые компании, занимающиеся разработкой искусственного интеллекта, могли получить приоритетный доступ, но LM Arena обязана повысить свою прозрачность в любом случае.
В сообщении на X LM Arena заявила, что некоторые из заявлений в статье не отражают реальность. Организация указала на сообщение в блоге, опубликованное ею ранее на этой неделе, в котором говорилось, что модели из неосновных лабораторий появляются в большем количестве битв Chatbot Arena, чем предполагает исследование.
Одним из важных ограничений исследования является то, что оно опиралось на «самоидентификацию» для определения того, какие модели AI находились в закрытом тестировании на Chatbot Arena. Авторы несколько раз задавали моделям AI вопросы об их компании происхождения и полагались на ответы моделей для их классификации — метод, который не является надежным.
Однако Хукер заявил, что когда авторы обратились в LM Arena, чтобы поделиться своими предварительными выводами, организация не стала их оспаривать. В статье авторы призывают LM Arena внедрить ряд изменений, направленных на то, чтобы сделать Chatbot Arena более «справедливой». Например, авторы говорят, что LM Arena могла бы установить четкий и прозрачный лимит на количество частных тестов, которые могут проводить лаборатории ИИ, и публично раскрывать результаты этих тестов.
В сообщении на X LM Arena отвергла эти предложения, заявив, что публиковала информацию о предварительном тестировании с марта 2024 года. Организация, проводящая бенчмаркинг, также заявила, что «нет смысла показывать оценки для предварительных моделей, которые не являются общедоступными», поскольку сообщество AI не может тестировать модели самостоятельно.
Исследователи также говорят, что LM Arena может скорректировать частоту выборки Chatbot Arena, чтобы гарантировать, что все модели на арене появятся в одинаковом количестве сражений. LM Arena публично восприняла эту рекомендацию и сообщила, что создаст новый алгоритм выборки.
Статья вышла через несколько недель после того, как Meta* была поймана на игровых бенчмарках в Chatbot Arena вокруг запуска ее вышеупомянутых моделей Llama 4. Meta* оптимизировала одну из моделей Llama 4 для «разговорчивости», что помогло ей достичь впечатляющего результата в таблице лидеров Chatbot Arena. Но компания так и не выпустила оптимизированную модель — и ванильная версия в итоге показала гораздо худшие результаты на Chatbot Arena.
В то время LM Arena заявила, что Meta* должна была быть более прозрачной в своем подходе к сравнительному анализу.
Ранее в этом месяце LM Arena объявила о запуске компании с планами по привлечению капитала от инвесторов. Исследование усиливает контроль над частными организациями, занимающимися бенчмаркингом, и тем, можно ли им доверять в оценке моделей AI без корпоративного влияния, омрачающего процесс.
Источник
Источник новости: habr.com