Сегодня OpenAI представили новый бенчмарк SWE-Lancer, предназначенный для оценки возможностей передовых языковых моделей (LLM) в выполнении реальных фриланс-задач по программированию. Бенчмарк включает 1488 (гусары, молчать) задач с платформы Upwork, суммарной стоимостью $1 млн, и охватывает как индивидуальные инженерные задачи, так и управленческие (что особенно интересно, то есть оцениваются не только навыки программирования, но и менеджерские).
Разработчики оценивали модели в двух категориях: IC SWE, где AI решает инженерные задачи, и SWE Manager, где AI выбирает наилучшее техническое предложение среди нескольких. Для проверки результатов использовались end-to-end тесты, созданные и трижды проверенные профессиональными разработчиками.
Испытания показали, что современные модели пока не способны выполнять большинство заданий. Лучшая из протестированных, Claude 3.5 Sonnet, смогла заработать $208 050 на подмножестве задач стоимостью $500 800, но её успехи остаются ограниченными.
Исследователи считают, что SWE-Lancer позволит глубже изучить экономическое влияние AI в сфере программирования, а также определить его потенциал в качестве фриланс-инструмента. Данные бенчмарка частично открыты для исследований, полный доступ предоставляется по запросу.
OpenAI подчеркнули, что SWE-Lancer также поможет разработчикам оценить безопасность автономных AI-агентов в программировании и выявить риски автоматизации сложных инженерных процессов.Заключение
Как говорится "если это можно измерить - это можно улучшить".
Мне кажется, это действительно отличный бенчмарк, максимально приближенный к реальности. Тестировать ИИ на литкоде и олимпиадных задачках по алгоритмике - это, конечно, весело, но способность понять бизнес-требования и реально решить прикладную задачу - это совсем другое.
И мы можем увидеть, что уже сейчас ИИ смог выполнить задач на $400k из $1m - 40% от общей суммы. Не изолированных задачек на написание кода, а полноценной реализации фриланс заказов. Поэтому под этой новостью я буду особенно рад увидеть мои любимые комментарии "да никогда он никого не заменит, вы посмотрите как он пальцы на руках генерирует или считает количество букв в словах"
P.S. В своём телеграм-канале я матом заставляю ИИ писать мне код, обозреваю свежие новости технологий, а ещё публикую эти самые новости раньше всех. Регулярно даю глубокую аналитику по отрасли и всем событиям, и рассказываю как создавать собственных ИИ-агентов и приложения с ИИ. И много других интересных непотребств. Велком!
Источник новости: habr.com