категории | RSS

Не DeepSeek

В последние дни мы наблюдаем уже не столько за битвой OpenAI и DeepSeek, сколько за баталиями DeepSeek против Qwen. И вот Qwen наносят новый удар. И это после того, как уже был релиз Qwen2.5-VL и релиз Qwen2.5 с контекстом в 1 миллион токенов.

Вчера была выпущена LLM-модель Qwen2.5-Max. Он превосходит DeepSeek V3 в таких бенчмарках, как Arena-Hard, LiveBench, LiveCodeBench и GPQA-Diamond, а также демонстрирует близкие результаты в других бенчмарках, как к примеру MMLU-Pro.Коротко о модели и архитектуре

Qwen2.5-Max - это крупномасштабная модель Mixture of Experts, которая была предварительно обучена на более чем 20 триллионах токенов и дополнительно обучена с использованием Supervised-Fine-Tuning (то есть - с участием человека) и обучения на основе фидбека от людей (RLHF).

В отличие от своих более открытых коллег из DeepSeek, Qwen не выложили данные по Qwen2.5-Max ни на GitHub, ни на HuggingFace. Это несколько нестандартно для них - детальное описание предыдущих моделей обычно выкладывалось сразу на обе площадки, а в этом случае мы увидели только доступ к API и демку (ну и модель добавлена в QwenChat, конечно же).

Отсюда я могу сделать вывод, что модель выкладывали в бешенной спешке, чтобы успеть перетянуть на себя одеяло, и бахнуть сочный инфоповод пока ИИ-шумиха приуроченная к китайскому нового году ещё горяча.

Судя по тому, что Qwen2.5-1M вчера обновили на HuggingFace, я могу сделать осторожное предположение, что Qwen2.5-Max основан именно на этой модели. Если это так, то это здорово, как я уже писал в статье про Qwen2.5-1M, настолько большим окном контекста из моделей в проде сейчас обладают только Gemini от Google (1M-2M) и MiniMax-01 (4M).Бенчмарки

Ребята из Qwen опубликовали пачку результатов для своей новой модели, но я бы относился к этим результатам с некоторой долей скепсиса. Пока данные ещё не выложены даже на HuggingFace, и независимые исследователи не прогнали модель по бенчам хотя бы по API - мы можем только лишь доверять репортам самой компании (хотя, кажется, врать в них было бы глупо, бенчмарки перепроверят буквально за пару дней).

Итак, сравнение с DeepSeek и с LLaMA3.1:

Сравнение с GPT-4o и Claude Sonnet-3.5:

На основе того, что по данным этих бенчмарков Qwen2.5-Max проигрывает GPT-4o в трёх бенчмарках из пяти, я могу сделать вывод, что главная цель здесь была - не наезд на американских коллег, а, скорее, борьба за статус в битве с коллегами китайскими.Заключение

Всё API Qwen является OpenAI-совместимым, поэтому потестировать модель можно уже сейчас:from openai import OpenAI import os client = OpenAI( api_key=os.getenv("API_KEY"), base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1", ) completion = client.chat.completions.create( model="qwen-max-2025-01-25", messages=[ {'role': 'system', 'content': 'You are a helpful assistant.'}, {'role': 'user', 'content': 'Which number is larger, 9.11 or 9.8?'} ] ) print(completion.choices[0].message)

Могу лишь пожелать вам удачных тестов, а ребятам из Qwen - выложить детальное описание Max на HuggingFace и GitHub как можно скорее.

----

P.S. Сегодня я закончу и выложу на Хабр большой обзор "Китайского нового года": анализ и сравнение всех вышедших за последнюю неделю китайских моделей: DeepSeek R1, DeepSeek V3, DeepSeek-Janus, Qwen2.5-1M, Qwen2.5-VL, Qwen2.5-Max, MiniMax-VL-1, MiniMax-Text-01.

Я хотел написать "единственную статью, которую надо прочесть, чтобы быть в курсе всех новостей", собрать обзоры всех новых моделей, упростить текст, чтобы было поменьше терминов и англицизмов, добавить результаты актуальных тестов, а не только заявления от производителей, и так далее.

Если вам это интересно, то подпишитесь: анонс я выложу в своём Телеграм-канале, и здесь на Хабре.



Источник новости: habr.com

DimonVideo
2025-01-29T14:50:12Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика