категории | RSS

Cohere выпускает Embed 4: новая модель для работы с большими объёмами данных

Расширенная генерация на основе поиска (RAG) по-прежнему является неотъемлемой частью современного увлечения агентским ИИ. Воспользовавшись сохраняющимся интересом к агентам, Cohere выпустила последнюю версию своей модели встраивания с более длинными контекстными окнами и большей мультимодальностью.

Cohere’s Embed 4 основан на мультимодальных обновлениях Embed 3 и добавляет больше возможностей для работы с неструктурированными данными. Благодаря контекстному окну на 128 000 токенов организации могут создавать вложения для документов объемом около 200 страниц.

«Существующие встраиваемые модели не способны изначально понимать сложные мультимодальные бизнес-материалы, из-за чего компаниям приходится разрабатывать громоздкие конвейеры предварительной обработки данных, которые лишь незначительно повышают точность, — написал Кохере в своём блоге. — Embed 4 решает эту проблему, позволяя предприятиям и их сотрудникам эффективно находить идеи, скрытые в горах информации, которую невозможно найти с помощью поиска».

Предприятия могут развернуть Embed 4 в частных виртуальных облаках или локальных технологических стеках для дополнительной защиты данных.

Компании могут генерировать вложения для преобразования своих документов или других данных в числовые представления для обычных случаев. Затем агенты могут ссылаться на эти вложения, чтобы отвечать на запросы.

По словам компании, Embed 4 «превосходит конкурентов в регулируемых отраслях», таких как финансы, здравоохранение и производство. Компания Cohere, которая в основном специализируется на корпоративных сценариях использования ИИ, заявила, что её модели учитывают потребности в безопасности регулируемых отраслей и хорошо понимают бизнес.

Компания обучила Embed 4 «устойчивости к помехам в реальных данных», чтобы он оставался точным, несмотря на «несовершенства» корпоративных данных, такие как орфографические ошибки и проблемы с форматированием.

«Он также эффективен при поиске по отсканированным документам и рукописным текстам. Эти форматы распространены в юридических документах, страховых счетах и чеках на расходы. Эта функция устраняет необходимость в сложной подготовке данных или предварительной обработке, экономя время и операционные расходы компаний», — сказал Кохере.

Организации могут использовать Embed 4 для презентаций инвесторам, составления отчётов о проверке, отчётов о клинических испытаниях, руководств по ремонту и документации по продуктам. ‭

Модель поддерживает более 100 языков, как и предыдущая версия модели.

Компания Agora, клиент Cohere, использовала Embed 4 для своей поисковой системы на основе ИИ и обнаружила, что модель может находить подходящие товары.

«Данные в сфере электронной коммерции сложны, они содержат изображения и многогранные текстовые описания. Возможность представлять наши товары в едином формате делает поиск быстрее, а внутренние инструменты — эффективнее», — написал в блоге Парам Джагги, основатель Agora.

Cohere утверждает, что такие модели, как Embed 4, улучшат сценарии использования агентов, и заявляет, что она может стать «оптимальной поисковой системой» для агентов и помощников с искусственным интеллектом на предприятии.

«Помимо высокой точности для разных типов данных, модель обеспечивает эффективность корпоративного уровня, — сказал Кохере. — Это позволяет масштабировать её для удовлетворения потребностей крупных организаций».

Кохере добавил, что Embed 4 создаёт сжатые вложения данных, чтобы сократить расходы на хранение.

Встраивания и поиск на основе RAG позволяют агенту ссылаться на конкретные документы для выполнения задач, связанных с запросом. Многие считают, что это обеспечивает более точные результаты, гарантируя, что агенты не будут отвечать неверными или вымышленными ответами.

Другие модели встраивания, с которыми конкурирует Cohere, включают Qodo-Embed-1-1.5B от Qodo и модели от Voyage AI, которые недавно приобрел поставщик баз данных MongoDB.

Источник



Источник новости: habr.com

DimonVideo
2025-04-16T10:50:03Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика