категории | RSS

Hugging Face работает над копированием возможностей OpenAI Deep Research с помощью агента AI с открытым исходным кодом

Команда Hugging Face под руководством главного научного сотрудника Томаса Вольфа создала версию системы Deep Research OpenAI с открытым исходным кодом за 24 часа.

Согласно блогу Hugging Face , они стремятся сделать фирменную технологию доступной для всех, копируя агентскую структуру, лежащую в основе OpenAI Deep Research. Команда разработала свою систему для написания программного кода напрямую, а не с использованием JSON для действий. Такой подход сокращает этапы обработки примерно на 30%, что приводит к снижению затрат и повышению производительности по сравнению с традиционными языковыми моделями.

Для фактической реализации команда позаимствовала два ключевых элемента из агентской среды Magentic-One от Microsoft : текстовый веб-браузер для поиска и текстовый инспектор, который может читать различные форматы файлов.При расчете цены смартфона в разных странах решение на основе JSON требует отдельных действий для каждого шага (получить курс обмена, посмотреть цену, рассчитать налоги). Code Agent, напротив, может выполнить весь расчет в одном цикле.

Команда оценила свою систему с помощью бенчмарка GAIA , который проверяет, как агенты AI справляются со сложными исследовательскими задачами. Один из примеров спрашивает: «Какие из фруктов, показанных на картине 2008 года «Вышивка из Узбекистана», подавались в качестве части меню завтрака в октябре 1949 года для океанского лайнера, который позже использовался в качестве плавучего реквизита для фильма «Последнее путешествие»? Приведите элементы в виде списка, разделенного запятыми, упорядочив их по часовой стрелке на основе их расположения на картине, начиная с позиции 12 часов. Используйте множественное число каждого фрукта».

Чтобы решить эту головоломку, AI-агенту необходимо определить фрукты на картине с помощью обработки изображений, определить, какой океанский лайнер появился в фильме, найти меню завтрака 1949 года и представить информацию в требуемом формате

Система Hugging Face набрала 55,15 процентов на этих многошаговых задачах. Это лучше, чем 46% Microsoft Magentic-One, но все еще отстает от 67% OpenAI с Deep Research.

Команда признает, что им еще предстоит работа, чтобы соответствовать Deep Research OpenAI , особенно в плане улучшения взаимодействия с браузером. Одно ключевое отличие: Hugging Face полагается на доступные языковые модели с открытым исходным кодом, в то время как OpenAI использует собственную модель o3, специально обученную для веб-задач с использованием обучения с подкреплением .

Тем не менее, результаты Hugging Face на тесте GAIA, опубликованные сразу после публикации отчета OpenAI Deep Research, указывают на то, что разрыв между открытым исходным кодом и проприетарным AI может сокращаться быстрее, чем ожидалось, — еще один признак (после дилеммы Deepseek ) того, что проприетарный AI может оказаться не самой сильной бизнес-моделью.

Следующий шаг команды — разработка агентов GUI, которые могут напрямую взаимодействовать с экранами, мышами и клавиатурами. Код доступен на GitHub и вы можете увидеть живую демонстрацию здесь. Другие разработчики создали свои собственные версии с открытым исходным кодом, включая dzhng , assafelovic и Jina AI. Hugging Face планирует проанализировать и задокументировать эти различные подходы.

Источник



Источник новости: habr.com

DimonVideo
2025-02-06T22:50:05Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика