категории | RSS

Mistral AI запускает новую функцию AI OCR с впечатляющими результатами

В четверг французский разработчик большой языковой модели ( LLM ) Mistral запустил новый API для разработчиков, которые обрабатывают сложные PDF-документы. Mistral OCR — это API оптического распознавания символов (OCR), который может превратить любой PDF-файл в текстовый файл, чтобы облегчить его обработку моделями AI. LLM, которые лежат в основе популярных инструментов GenAI, таких как ChatGPT от OpenAI, особенно хорошо работают с необработанным текстом. Поэтому компании, которые хотят создать свой собственный рабочий процесс AI, знают, что стало чрезвычайно важно хранить и индексировать данные в чистом формате, чтобы эти данные можно было повторно использовать для обработки AI.

В отличие от большинства API OCR, Mistral OCR является мультимодальным API, что означает, что он может определять, когда иллюстрации и фотографии переплетаются с блоками текста. API OCR создает ограничивающие рамки вокруг этих графических элементов и включает их в вывод.

Mistral OCR не просто выводит большой текст; вывод форматируется в Markdown — синтаксисе форматирования, который разработчики используют для добавления ссылок, заголовков и других элементов форматирования в простой текстовый файл.

LLM в значительной степени полагаются на Markdown для своих обучающих наборов данных. Аналогично, когда вы используете помощника AI, например Le Chat от Mistral или ChatGPT от OpenAI, они часто генерируют Markdown для создания маркированных списков, добавления ссылок или выделения некоторых элементов жирным шрифтом. Приложения-помощники легко форматируют вывод Markdown в форматированный текстовый вывод. Вот почему необработанный текст — и Markdown — стали более важными в последние годы, когда GenAI бурно развивался.

«За эти годы организации накопили множество документов, часто в форматах PDF или слайдов, которые недоступны для LLM, особенно для систем RAG. Благодаря Mistral OCR наши клиенты теперь могут преобразовывать сложные и насыщенные документы в читаемый контент на всех языках», — сказал соучредитель и главный научный сотрудник Mistral Гийом Лампле.

Он добавил, что это важный шаг на пути к широкому внедрению помощников на основе искусственного интеллекта в компаниях, которым необходимо упростить доступ к своей обширной внутренней документации

Mistral OCR доступен на собственной платформе API Mistral или через ее облачных партнеров (AWS, Azure, Google Cloud Vertex и т. д.). А для компаний, работающих с секретными или конфиденциальными данными, Mistral предлагает локальное развертывание.

По данным парижской компании искусственного интеллекта, Mistral OCR работает лучше, чем API от Google, Microsoft и OpenAI. Компания протестировала свою модель OCR со сложными документами, включающими математические выражения (форматирование LaTeX), расширенные макеты или таблицы. Также предполагается, что она будет работать лучше с документами на языках, отличных от английского.

Учитывая, что Mistral OCR делает одну и только одну вещь, компания считает, что он также быстрее, чем то, что есть. Это неудивительно, если сравнить его с мультимодальным LLM, таким как GPT-4o, который также имеет возможности OCR (среди многих других функций).

Mistral также использует Mistral OCR для своего собственного помощника AI Le Chat . Когда пользователь загружает PDF-файл, компания использует Mistral OCR в фоновом режиме, чтобы понять, что находится в документе, прежде чем обрабатывать текст.

Компании и разработчики, скорее всего, будут использовать Mistral OCR с системой RAG (также известной как Retrieval-Augmented Generation) для использования мультимодальных документов в качестве входных данных в LLM. И есть много потенциальных вариантов использования. Например, мы могли бы представить, как юридические фирмы будут использовать его, чтобы быстро продираться через огромные объемы документов.

RAG — это метод, который применяется для извлечения данных и использования их в качестве контекста в генеративной модели AI.

Источник



Источник новости: habr.com

DimonVideo
2025-03-07T06:50:03Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика