Китайская технологическая компания Alibaba в понедельник представила Qwen3 — семейство моделей искусственного интеллекта, которые, по утверждению компании, соответствуют, а в некоторых случаях и превосходят лучшие модели, доступные от Google и OpenAI.
Большинство моделей доступны — или скоро будут доступны — для загрузки по «открытой» лицензии с платформы разработки AI Hugging Face и GitHub. Они варьируются по размеру от 0,6 млрд параметров до 235 млрд параметров. Параметры примерно соответствуют навыкам решения проблем модели, и модели с большим количеством параметров, как правило, работают лучше, чем модели с меньшим количеством параметров.
Рост числа серий моделей китайского происхождения, таких как Qwen, увеличил давление на американские лаборатории, такие как OpenAI, чтобы они предоставляли более эффективные технологии AI. Они также побудили политиков ввести ограничения, направленные на ограничение возможностей китайских компаний AI получать чипы, необходимые для обучения моделей.
По словам Alibaba, модели Qwen3 являются «гибридными» в том смысле, что они могут тратить время и «рассуждать» над сложными проблемами или быстро отвечать на более простые запросы. Рассуждение позволяет моделям эффективно проверять себя, подобно моделям, таким как o3 от OpenAI, но ценой более высокой задержки.
«Мы бесшовно интегрировали режимы мышления и не-мышления, предлагая пользователям гибкость в управлении бюджетом мышления», — написала команда Qwen в сообщении в блоге. «Эта конструкция позволяет пользователям с большей легкостью настраивать бюджеты для конкретных задач».
Некоторые модели также используют архитектуру смешанного эксперта (MoE), которая может быть более вычислительно эффективной для ответов на запросы. MoE разбивает задачи на подзадачи и делегирует их более мелким, специализированным «экспертным» моделям.
По словам Alibaba, модели Qwen3 поддерживают 119 языков и были обучены на наборе данных из почти 36 триллионов токенов. Токены — это необработанные биты данных, которые обрабатывает модель; 1 миллион токенов эквивалентен примерно 750 000 слов. Alibaba утверждает, что Qwen3 обучался на комбинации учебников, «пар вопросов и ответов», фрагментов кода, данных, сгенерированных AI, и многого другого.
Эти улучшения, наряду с другими, значительно повысили возможности Qwen3 по сравнению с его предшественником Qwen2, говорит Alibaba. Ни одна из моделей Qwen3 не превосходит на голову последние топовые модели, такие как o3 и o4-mini от OpenAI, но тем не менее они являются сильными исполнителями.
На Codeforces, платформе для соревнований по программированию, самая большая модель Qwen3 — Qwen-3-235B-A22B — немного опережает o3-mini от OpenAI и Gemini 2.5 Pro от Google . Qwen-3-235B-A22B также превосходит o3-mini в последней версии AIME, сложного математического теста, и BFCL, теста для оценки способности модели «рассуждать» о проблемах.
Но Qwen-3-235B-A22B не является общедоступным — по крайней мере, пока.Результаты внутреннего сравнительного анализа Alibaba для Qwen3.Источники изображений: Alibaba
Самая крупная публичная модель Qwen3, Qwen3-32B, по-прежнему конкурентоспособна с рядом фирменных и открытых моделей ИИ, включая R1 китайской лаборатории ИИ DeepSeek. Qwen3-32B превосходит модель o1 от OpenAI в нескольких тестах, включая тест кодирования LiveCodeBench.
Alibaba утверждает, что Qwen3 «превосходит» возможности вызова инструментов, а также следования инструкциям и копирования определенных форматов данных. Помимо моделей для загрузки, Qwen3 доступен у облачных провайдеров, включая Fireworks AI и Hyperbolic.
Тухин Шривастава, соучредитель и генеральный директор облачного хостинга искусственного интеллекта Baseten, сказал, что Qwen3 — это еще один пример в тренде открытых моделей, идущих в ногу с системами с закрытым исходным кодом, такими как OpenAI.
«США удваивают ставки на ограничение продаж чипов в Китай и закупок из Китая, но такие модели, как Qwen 3, которые являются современными и открытыми… несомненно, будут использоваться внутри страны», — сказал он TechCrunch. «Это отражает реальность того, что компании как создают собственные инструменты, так и покупают готовые через компании с закрытой моделью, такие как Anthropic и OpenAI».
Источник
Источник новости: habr.com