BrowseComp: новый тест для ИИ-агентов по поиску информации в интернете от OpenAI

Разное

12:50 14-04-2025

DimonVideo

BrowseComp: новый тест для ИИ-агентов по поиску информации в интернете от OpenAI

BrowseComp - это новый бенчмарк от OpenAI, созданный для оценки способности ИИ-агентов эффективно искать информацию в интернете. Бенчмарк включает в себя 1266 вопросов, которые требуют от модели творческого подхода в поиске информации на разных сайтах. Эти вопросы не просто требуют фактов, их нужно искать, объединяя информацию с разных источников, делая задачу по-настоящему сложной.Зачем нужен BrowseComp?

Интернет значительно изменил наш доступ к информации, но поиск информации до сих пор остается проблемным для людей. У людей есть ограничения: мы можем забывать, нас отвлекают другие задачи, и мы не можем работать с множеством вкладок одновременно. Машины, напротив, могут работать без усталости и отвлечений, но даже они сталкиваются с трудностями, когда нужно найти информацию, которая скрыта глубоко в интернете. BrowseComp создан, чтобы оценить ИИ-агентов, которые должны справляться с такими сложными задачами.ёДанные: сложные вопросы и легкая проверка

BrowseComp специально создан для того, чтобы предлагать сложные вопросы. Здесь не идет речь о простых фактах, а о задачах, где нужно найти информацию, рассеянную по множеству сайтов. Примеры таких вопросов включают вопросы о редких спортивных событиях, научных статьях или исторических фактах, которые не могут быть найдены простым поиском в Google.Распределение тем в BrowseComp

Пример 1: Какая футбольная игра между 1990 и 1994 годами включала бразильского судью, 4 желтых карточки и 4 замены, одна из которых была связана с травмой в первые 25 минут матча? Ответ: Ирландия против Румынии.

Пример 2: Кто является вымышленным персонажем, который иногда обращается к зрителям, имеет историю, связанную с помощью самоотверженных аскетов, известен своим юмором и вел телевизионное шоу в 1960-1980-х годах с менее чем 50 эпизодами? Ответ: Пластик Ман.

Несмотря на сложность этих вопросов, ответы на них короткие и легко проверяемые. Это делает бенчмарк удобным для использования, но трудным для решения, так как от моделей требуется не только базовое извлечение данных, но и стратегическое мышление и креативный поиск.

Процесс создания вопросов для BrowseComp включает перевернутую генерацию вопросов, где тренеры начинают с проверяемого факта и создают вопрос, который сложно найти, но легко проверить. Например, вопрос о научной статье может включать информацию об образовании авторов. Тренеры проверяют, чтобы вопросы нельзя было решить за 10 минут, и они требовали глубокого поиска.Сколько времени потребовалось людям, чтобы решить задачи BrowseComp или сдаться.
Тренерам разрешалось сдаваться, только если они пытались решить задачу в течение как минимум двух часовРезультаты на BrowseComp

Когда ИИ-модели прошли тестирование на BrowseComp, их результаты показали, насколько сложен этот бенчмарк. Например:

GPT-4o: Без возможности поиска в интернете набрал всего 0,6% точности.

GPT-4o с поиском: Немного улучшился, достигнув 1,9%, но все равно сильно уступал.

OpenAI Deep Research: Модель, специально созданная для задач поиска в интернете, показала 51,5% точности, что свидетельствует о важности как рассуждений, так и умений в поиске информации.

Интересный вывод из этих данных: масштабирование вычислений значительно улучшает результаты. Чем больше вычислительных ресурсов используется для задачи (параллельный поиск и голосование), тем выше точность.Реальное применение

Хотя BrowseComp в первую очередь служит исследовательским инструментом, его результаты имеют реальное значение. Модели, которые успешно справляются с этим бенчмарком, могут быть использованы в различных областях:

Фактчекинг: ИИ может помогать быстро проверять факты, исследуя различные источники;

Журналистика и исследования: ИИ может помочь журналистам и исследователям находить и синтезировать информацию с множества сайтов;

Поддержка клиентов: ИИ-агенты могут решать сложные запросы клиентов, требующие глубокого поиска.

BrowseComp - это не просто технический бенчмарк, а тест на креативность и рассуждения. Он показывает, насколько эффективно ИИ может искать сложную информацию в интернете, требующую более чем поверхностного знания. Несмотря на то, что это не отражает все возможные сценарии поиска, BrowseComp задает новый стандарт для агентов по поиску информации в интернете.

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал - там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и обьясняю, как работают все эти ИИ-чудеса.

Источник новости: habr.com

Чат в Telegram

Регистрация

Войти

Главная

Опросы

Форум

Обзор новинок

Обменник

Android

Трекер

PC

Видео

Картинки

Новости

Разные новости

Статьи

Блоги

Комментарии

ПОДДЕРЖИ сайт

BrowseComp: новый тест для ИИ-агентов по поиску информации в интернете от OpenAI

Разное

Похожие файлы

В России создали новый тест для быстрой диагностики опасной бактерии в продуктах

Предложен новый тест для проверки мышления искусственного интеллекта

Новый тест предскажет риск сердечно-сосудистых заболеваний по тромбоцитам

Тест ARC-AGI-2: новый стандарт для измерения интеллекта ИИ

Не знаю - 12 (8%)

16 - 9 (6%)

15 - 50 (37%)

14 - 21 (15%)

13 - 17 (12%)

12 - 4 (2%)

11 - 5 (3%)

10 - 6 (4%)

9 - 1 (0%)

8 - 1 (0%)

7 и ниже - 2 (1%)

А у меня айфон! - 6 (4%)

Иное - 1 (0%)

Не знаю - 12 (8%)

16 - 9 (6%)

15 - 50 (37%)

14 - 21 (15%)

13 - 17 (12%)

12 - 4 (2%)

11 - 5 (3%)

10 - 6 (4%)

9 - 1 (0%)

8 - 1 (0%)

7 и ниже - 2 (1%)

А у меня айфон! - 6 (4%)

Иное - 1 (0%)