Hugging Face выпустила SmolVLM — коллекцию компактных визуально-текстовых моделей

Разное

16:50 02-12-2024

DimonVideo

Hugging Face выпустила SmolVLM — коллекцию компактных визуально-текстовых моделей

Команда платформы Hugging Face выпустила коллекцию компактных визуально-текстовых моделей машинного обучения SmolVLM. Их главное преимущество в том, что модели можно развернуть локально на устройстве с ограниченными ресурсами. Код проекта открыт.

Коллекция состоит из четырёх моделей:

SmolVLM Base — для файнтюнинга;

SmolVLM Synthetic — с синтетическими данными;

SmolVLM Instruct — настроенные инструкции для использования в приложениях.

VLM (Vision-Language Model) — тип мультимодальных моделей машинного обучения, которые объединяют обработку визуальных и текстовых данных. Они предназначены для распознавания связей между текстом и образами на изображениях или видео.

Модели построена на архитектуре Idefics3, которую авторы проекта модернизировали. Разработчики отказались от языковой модели Llama 3.1 8B в пользу SmolLM2 1.7B, перешли на использование патчей размером 384×384 пикселей вместо 364×364 и расширили контекстное окно до 16 тыс. токенов, что позволило добавить возможность работать одновременно с двумя изображениями. Все модели в коллекции мультимодальные (изображения и текст).

Разработчики отмечают, что конкурентная модель Qwen2-VL использует 16 тыс. токенов для обработки изображений и текстовых запросов. SmolVLM для этого надо всего 1,2 тыс. токенов. Это позволяет нейросети обрабатывать данные до 4,5 раза быстрее и генерировать до 16 раз быстрее, чем Qwen2-VL. В итоге это позволяет экономить ресурсы и использовать модели локально. Важно отметить, что нейросеть поддерживает только английский язык.

Модели опубликовали на площадке Hugging Face. Код проекта открыт и распространяется по лицензии Apache 2.0. Демо развернули в отдельном пространстве.

Источник новости: habr.com

Чат в Telegram

Регистрация

Войти

Главная

Опросы

Форум

Обзор новинок

Обменник

Android

Трекер

PC

Видео

Картинки

Новости

Разные новости

Статьи

Блоги

Комментарии

ПОДДЕРЖИ сайт

Hugging Face выпустила SmolVLM — коллекцию компактных визуально-текстовых моделей

Разное

Похожие файлы

Hugging Face выпустила фреймворк Smolagents, упрощающий создание AI-агентов с помощью всего нескольких строк кода

Hugging Face выпустила SmolTalk — синтетический датасет для обучения языковых моделей

Hugging Face поделится вычислительными ресурсами на $10 млн для борьбы с монополией крупных компаний в области ИИ

Hugging Face выпускает небольшую языковую модель, которая в большинстве случаев превосходит Qwen и Llama