Команда Hugging Face под руководством главного научного сотрудника Томаса Вольфа создала версию системы Deep Research OpenAI с открытым исходным кодом за 24 часа.
Согласно блогу Hugging Face , они стремятся сделать фирменную технологию доступной для всех, копируя агентскую структуру, лежащую в основе OpenAI Deep Research. Команда разработала свою систему для написания программного кода напрямую, а не с использованием JSON для действий. Такой подход сокращает этапы обработки примерно на 30%, что приводит к снижению затрат и повышению производительности по сравнению с традиционными языковыми моделями.
Для фактической реализации команда позаимствовала два ключевых элемента из агентской среды Magentic-One от Microsoft : текстовый веб-браузер для поиска и текстовый инспектор, который может читать различные форматы файлов.При расчете цены смартфона в разных странах решение на основе JSON требует отдельных действий для каждого шага (получить курс обмена, посмотреть цену, рассчитать налоги). Code Agent, напротив, может выполнить весь расчет в одном цикле.
Команда оценила свою систему с помощью бенчмарка GAIA , который проверяет, как агенты AI справляются со сложными исследовательскими задачами. Один из примеров спрашивает: «Какие из фруктов, показанных на картине 2008 года «Вышивка из Узбекистана», подавались в качестве части меню завтрака в октябре 1949 года для океанского лайнера, который позже использовался в качестве плавучего реквизита для фильма «Последнее путешествие»? Приведите элементы в виде списка, разделенного запятыми, упорядочив их по часовой стрелке на основе их расположения на картине, начиная с позиции 12 часов. Используйте множественное число каждого фрукта».
Чтобы решить эту головоломку, AI-агенту необходимо определить фрукты на картине с помощью обработки изображений, определить, какой океанский лайнер появился в фильме, найти меню завтрака 1949 года и представить информацию в требуемом формате
Система Hugging Face набрала 55,15 процентов на этих многошаговых задачах. Это лучше, чем 46% Microsoft Magentic-One, но все еще отстает от 67% OpenAI с Deep Research.
Команда признает, что им еще предстоит работа, чтобы соответствовать Deep Research OpenAI , особенно в плане улучшения взаимодействия с браузером. Одно ключевое отличие: Hugging Face полагается на доступные языковые модели с открытым исходным кодом, в то время как OpenAI использует собственную модель o3, специально обученную для веб-задач с использованием обучения с подкреплением .
Тем не менее, результаты Hugging Face на тесте GAIA, опубликованные сразу после публикации отчета OpenAI Deep Research, указывают на то, что разрыв между открытым исходным кодом и проприетарным AI может сокращаться быстрее, чем ожидалось, — еще один признак (после дилеммы Deepseek ) того, что проприетарный AI может оказаться не самой сильной бизнес-моделью.
Следующий шаг команды — разработка агентов GUI, которые могут напрямую взаимодействовать с экранами, мышами и клавиатурами. Код доступен на GitHub и вы можете увидеть живую демонстрацию здесь. Другие разработчики создали свои собственные версии с открытым исходным кодом, включая dzhng , assafelovic и Jina AI. Hugging Face планирует проанализировать и задокументировать эти различные подходы.
Источник
Источник новости: habr.com