Китайская DeepSeek выпустила мощную и открытую ИИ-модель с 671 млрд параметров

Новости ПО

09:13 28-12-2024

DimonVideo

Китайская DeepSeek выпустила мощную и открытую ИИ-модель с 671 млрд параметров

Китайский ИИ-стартап DeepSeek выпустил DeepSeek V3, языковую модель с открытым исходным кодом на 671 миллиард параметров. Модель, обучение которой обошлось в 5,5 миллионов долларов с использованием графических процессоров Nvidia H800, получила высокую оценку за эффективность и производительность.

DeepSeek V3 превзошла таких конкурентов, как OpenAI GPT-4 в бенчмарках по программированию. Модель, обученная на 14,8 триллионах токенов за два месяца, в 1,6 раза больше, чем *Llama 3.1, но требует значительных вычислительных мощностей для эффективной работы.

Бывший руководитель OpenAI Андрей Карпати подчеркнул это достижение, отметив, что DeepSeek V3 достигла своей производительности за гораздо меньшее количество часов работы GPU, чем сопоставимые модели. Ей потребовалось 2,8 миллиона GPU-часов, что гораздо меньше, чем 30,8 миллиона GPU-часов, использованных для *Llama 3 405B.

*принадлежит Meta, которая признана в РФ экстремистской и запрещена

Источник новости: www.ferra.ru

Чат в Telegram

Регистрация

Войти

Главная

Опросы

Форум

Обзор новинок

Обменник

Android

Трекер

PC

Видео

Картинки

Новости

Разные новости

Статьи

Блоги

Комментарии

ПОДДЕРЖИ сайт

Китайская DeepSeek выпустила мощную и открытую ИИ-модель с 671 млрд параметров

Новости ПО

Похожие файлы

Китайская Baidu запустила мощные ИИ-модели по низкой цене

Google выпустила мощную и недорогую версию ИИ Gemini 2.5 Flash

Эксперты Hugging Face начали делать «открытую» версию китайского ИИ DeepSeek

OpenAI наносит ответный удар: вышла ChatGPT o3-mini для конкуренции с DeepSeek