Слив языковой модели LLaMA 3.1 размером 405B (а так же 70B, 8B). Главный открытый конкурент GPT-4o

Разное

04:50 23-07-2024

DimonVideo

Слив языковой модели LLaMA 3.1 размером 405B (а так же 70B, 8B). Главный открытый конкурент GPT-4o

После выхода LLaMA 3 70B многие ждали обещанную модель размером 400B. Эта модель должна была составить полноценную конкуренцию с GPT-4, при этом оставаться с открытыми весами. Правда некоторые слухи утверждали, что в открытый доступ 400B модель не попадет и будет доступна только через подписку. И тут неожиданно была слита даже не ожидаемая LLaMA 3, а улучшенная версия LLaMA 3.1.

Главное изменение, помимо улучшения качества, в версии 3.1 размер контекста увеличен до 128K вместо 8K. По некоторым бенчмаркам LLaMA 3.1 размером 8B превосходит LLaMA 3 70B. А модель на 405B конкурирует с GPT-4o.

А модели 70B и 8B получены, судя по всему, путем дистилляции из 405B модели, что несколько снижает их качество, по сравнению с нативно обученными 70B моделями, но при этом по бенчмаркам они всё равно обходят предыдущую Llama 3 70B.

К сожалению, репозитории huggingface с 8B и 70B быстро удаляют, поэтому актуальных ссылок пока нет, возможно, кто-то поделиться в комментариях.

Обсуждение на reddit и торрент файл модели 405B (суммарный вес файлов 820гб): https://www.reddit.com/r/LocalLLaMA/comments/1e98zrb/llama_31_405b_base_model_available_for_download/

405B модель на huggingface: https://huggingface.co/v2ray/Llama-3.1-405B/tree/main

Источник новости: habr.com

Чат в Telegram

Регистрация

Войти

Главная

Опросы

Форум

Обзор новинок

Обменник

Android

Трекер

PC

Видео

Картинки

Новости

Разные новости

Статьи

Блоги

Комментарии

ПОДДЕРЖИ сайт

Слив языковой модели LLaMA 3.1 размером 405B (а так же 70B, 8B). Главный открытый конкурент GPT-4o

Разное

Похожие файлы

Слив языковой модели LLaMA 3.1 размером 405B (а также 70B, 8B). Главный открытый конкурент GPT-4o

Meta* представила открытую ИИ-модель LLaMA 2 совместно с Microsoft

Разработчик выпустил llm.js — библиотеку для запуска больших языковых моделей в браузере

Компания Allen AI: новая модель Tülu 3 405B с открытым исходным кодом конкурирует с лучшими моделями