Китайская компания Deepseek только что выпустила свою самую мощную языковую модель. Первые тесты показывают, что новая модель V3 может конкурировать с ведущими проприетарными моделями в отрасли и демонстрирует значительное улучшение в задачах логического мышления.
Модель, доступная на Github, использует архитектуру Mixture-of-Experts (MoE) с общим количеством параметров 671 миллиард, из которых 37 миллиардов активируются для каждого токена. Это значительное увеличение по сравнению с V2, которая имеет 236 миллиардов параметров, из которых 21 миллиард активен во время вывода.
Обучение также было более обширным, обработав 14.8 триллионов токенов — почти вдвое больше данных, чем в V2. По данным Deepseek, полное обучение заняло 2.788 миллиона часов на H800 GPU и стоило примерно $5.576 миллионов.
Особенно впечатляет то, что они достигли этого результата, используя кластер всего из 2,000 GPU — это лишь малая часть из 100,000 графических карт, которые компании, такие как xAI и OpenAI, обычно используют для обучения AI. Deepseek объясняет эту эффективность оптимизированным совместным проектированием алгоритмов, фреймворков и аппаратного обеспечения. Одним из самых больших улучшений V3 является его скорость — он может обрабатывать 60 токенов в секунду, что в три раза быстрее, чем его предшественник.
Команда сосредоточилась на улучшении мышления, используя специальный процесс пост-обучения, который использовал данные из их модели "Deepseek-R1", специально разработанной для сложных задач логического мышления. При тестировании на фоне как открытых, так и проприетарных моделей он достиг наивысших результатов в трех из шести основных бенчмарков LLM, с особенно сильными показателями на бенчмарке MATH 500 (90.2%) и тестах программирования, таких как Codeforces и SWE.Deepseek-V3 выходит на первое место в трех из шести тестов LLM, используемых Deepseek. Особенно заметны результаты в задачах на рассуждение, таких как математический тест MATH 500 (90,2%) и тесты кодирования Codeforces и SWE.
По данным Deepseek, V3 демонстрирует производительность, сопоставимую с ведущими проприетарными моделями, такими как GPT-4o и Claude-3.5-Sonnet, во многих тестах, при этом предлагая лучшее соотношение цены и производительности на рынке. Цены на API останутся на уровне V2 до 8 февраля. После этого пользователи будут платить $0.27 за миллион токенов для входных данных ($0.07 за кэшированные хиты) и $1.10 за миллион токенов для выходных данных.
Модель выпущена под лицензионным соглашением Deepseek (Версия 1.0), которое предоставляет пользователям бесплатную, всемирную, неисключительную и безотзывную лицензию на авторские права и патенты. Пользователи могут воспроизводить, модифицировать и распространять модель, в том числе в коммерческих целях, хотя военные приложения и полностью автоматизированные юридические услуги запрещены.
Основанная всего в прошлом году, компания Deepseek планирует улучшить архитектуру своей модели. Компания хочет преодолеть архитектурные ограничения Transformer, тем самым расширяя границы своих возможностей моделирования, и поддерживать неограниченные длины контекста. Как и OpenAI, компания заявляет, что принимает поэтапный подход к созданию искусственного общего интеллекта (AGI). В настоящее время в ее ассортименте имеются специализированные модели для математики и программирования, доступные как через API, так и для бесплатного локального использования.
Источник
Источник новости: habr.com