Nvidia представила открытую LLM модель Nemotron-4 340B

Разное

22:50 16-06-2024

DimonVideo

Nvidia представила открытую LLM модель Nemotron-4 340B

Сравнение Nemotron-4 340B с GPT-4-1106

На данный момент самая крупная, после DeepSeek-V2 236B, открытая LLM модель размером 340B. По тестам сравнения человеком как выигрывает у GPT-4-1106 (вышла в ноябре 2023), так и проигрывает, но чаще составляет паритет.

Обучалась на 50+ естественных языках и 40+ языках программирования. Архитектура модели построена на Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE). Но длина контекста всего 4096 токенов.

Модель представлена в виде: Nemotron-4-340B-Base, Nemotron-4-340B-Instruct и Nemotron-4-340B-Reward.

Base - предназначена для генерации синтетических данных.

Insctuct - предназначена для чата и выполнения инструкций

Reward - base модель с дополнительным линейным слоем для обучения используя новый подход reward.

Модель распространяется под лицензией NVIDIA Open Model License Agreement, разрешающая коммерческое использование.

Сама модель может и в стихи, так как обучалась и на русском языке:

Онлайн демо: https://chat.lmsys.org/ (там выбрать Direct Chat)

Веса модели: https://huggingface.co/nvidia/Nemotron-4-340B-Instruct

safetensors: https://huggingface.co/failspy/Nemotron-4-340B-Instruct-SafeTensors

Больше подробностей в пресс-релизе.

Самая большая загадка - сможет ли 1 битное квантование gguf позволить запустить её локально, и что даст эта модель для сообщества llm.

Источник новости: habr.com

Чат в Telegram

Регистрация

Войти

Главная

Опросы

Форум

Обзор новинок

Обменник

Android

Трекер

PC

Видео

Картинки

Новости

Разные новости

Статьи

Блоги

Комментарии

ПОДДЕРЖИ сайт

Nvidia представила открытую LLM модель Nemotron-4 340B

Разное

Похожие файлы

Представлена открытая LLM модель для кода DeepSeek-Coder-V2 на 16B и 236B. Теоретический конкурент для Codestral 22B

Представлена открытая модель для кода DeepSeek-Coder-V2 на 16B и 236B. Теоретический конкурент для Codestral 22B

Google представила открытые языковые модели Gemma

Nvidia представила базовую ИИ-модель GR00T для роботов-гуманоидов