Вышла Ollama версии 0.7.0, которая расширила поддержку мультимодальных моделей с помощью нового специально разработанного движка. Теперь Ollama не зависит от проекта ggml-org/llama.cpp, сосредоточившись вместо этого на создании собственной надёжной основы для мультимодальных систем.
Заявлена поддержка ключевых мультимодальных моделей, таких как Meta Llama 4, Google Gemma 3, Qwen 2.5 VL и Mistral Small 3.1 и других. Новый движок обеспечивает полную внутреннюю обработку этих моделей, что позволяет повысить надёжность, точность и масштабируемость для таких задач, как обработка изображений, речь и закладывает основу для поддержки генерации изображений и видео в мультимодальном режиме.
Каждая модель теперь полностью автономна, что устраняет необходимость в сложной логике оркестрации между визуальными кодировщиками и текстовыми декодерами. Это упрощает разработку и уменьшает количество ошибок. Для повышения точности Ollama вводит обработку метаданных во время обработки изображений, обеспечивая правильную позиционную информацию и разделение на пакеты для поддержания качества вывода.
Также в сотрудничестве с партнерами-производителями аппаратного обеспечения произведена оптимизация использования памяти, включая кэширование изображений и усовершенствования KV-кэша, Заявлена поддержка таких вещей, как скользящее окно внимания (sliding window attention) в Gemma 3 и фрагментированного внимания (chunked attention ) для Meta Llama 4 Scout и Maverick models.
Дополнительные улучшения релиза включают поддержку изображений WebP, исправления ошибок для Windows и совместимости с графическими процессорами NVIDIA, улучшенный импорт моделей safetensors и усовершенствования API.
Подробнее об релизе: https://ollama.com/blog/multimodal-models
Источник новости: habr.com