Китайский ИИ-стартап DeepSeek выпустил DeepSeek V3, языковую модель с открытым исходным кодом на 671 миллиард параметров. Модель, обучение которой обошлось в 5,5 миллионов долларов с использованием графических процессоров Nvidia H800, получила высокую оценку за эффективность и производительность.
DeepSeek V3 превзошла таких конкурентов, как OpenAI GPT-4 в бенчмарках по программированию. Модель, обученная на 14,8 триллионах токенов за два месяца, в 1,6 раза больше, чем *Llama 3.1, но требует значительных вычислительных мощностей для эффективной работы.
Бывший руководитель OpenAI Андрей Карпати подчеркнул это достижение, отметив, что DeepSeek V3 достигла своей производительности за гораздо меньшее количество часов работы GPU, чем сопоставимые модели. Ей потребовалось 2,8 миллиона GPU-часов, что гораздо меньше, чем 30,8 миллиона GPU-часов, использованных для *Llama 3 405B.
*принадлежит Meta, которая признана в РФ экстремистской и запрещена
Источник новости: www.ferra.ru