категории | RSS

Ollama 0.7.0 теперь поддерживает мультимодальные модели на своем «движке»

Вышла Ollama версии 0.7.0, которая расширила поддержку мультимодальных моделей с помощью нового специально разработанного движка. Теперь Ollama не зависит от проекта ggml-org/llama.cpp, сосредоточившись вместо этого на создании собственной надёжной основы для мультимодальных систем.

Заявлена поддержка ключевых мультимодальных моделей, таких как Meta Llama 4, Google Gemma 3, Qwen 2.5 VL и Mistral Small 3.1 и других. Новый движок обеспечивает полную внутреннюю обработку этих моделей, что позволяет повысить надёжность, точность и масштабируемость для таких задач, как обработка изображений, речь и закладывает основу для поддержки генерации изображений и видео в мультимодальном режиме.

Каждая модель теперь полностью автономна, что устраняет необходимость в сложной логике оркестрации между визуальными кодировщиками и текстовыми декодерами. Это упрощает разработку и уменьшает количество ошибок. Для повышения точности Ollama вводит обработку метаданных во время обработки изображений, обеспечивая правильную позиционную информацию и разделение на пакеты для поддержания качества вывода.

Также в сотрудничестве с партнерами-производителями аппаратного обеспечения произведена оптимизация использования памяти, включая кэширование изображений и усовершенствования KV-кэша, Заявлена поддержка таких вещей, как скользящее окно внимания (sliding window attention) в Gemma 3 и фрагментированного внимания (chunked attention ) для Meta Llama 4 Scout и Maverick models.

Дополнительные улучшения релиза включают поддержку изображений WebP, исправления ошибок для Windows и совместимости с графическими процессорами NVIDIA, улучшенный импорт моделей safetensors и усовершенствования API.

Подробнее об релизе: https://ollama.com/blog/multimodal-models



Источник новости: habr.com

DimonVideo
2025-05-19T10:50:01Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика