OpenAI представили SWE-Lancer: как ИИ заменит разработчиков в задачах на $1,000,000?

Разное

22:50 18-02-2025

DimonVideo

OpenAI представили SWE-Lancer: как ИИ заменит разработчиков в задачах на $1,000,000?

Сегодня OpenAI представили новый бенчмарк SWE-Lancer, предназначенный для оценки возможностей передовых языковых моделей (LLM) в выполнении реальных фриланс-задач по программированию. Бенчмарк включает 1488 (гусары, молчать) задач с платформы Upwork, суммарной стоимостью $1 млн, и охватывает как индивидуальные инженерные задачи, так и управленческие (что особенно интересно, то есть оцениваются не только навыки программирования, но и менеджерские).

Разработчики оценивали модели в двух категориях: IC SWE, где AI решает инженерные задачи, и SWE Manager, где AI выбирает наилучшее техническое предложение среди нескольких. Для проверки результатов использовались end-to-end тесты, созданные и трижды проверенные профессиональными разработчиками.

Испытания показали, что современные модели пока не способны выполнять большинство заданий. Лучшая из протестированных, Claude 3.5 Sonnet, смогла заработать $208 050 на подмножестве задач стоимостью $500 800, но её успехи остаются ограниченными.

Исследователи считают, что SWE-Lancer позволит глубже изучить экономическое влияние AI в сфере программирования, а также определить его потенциал в качестве фриланс-инструмента. Данные бенчмарка частично открыты для исследований, полный доступ предоставляется по запросу.

OpenAI подчеркнули, что SWE-Lancer также поможет разработчикам оценить безопасность автономных AI-агентов в программировании и выявить риски автоматизации сложных инженерных процессов.Заключение

Как говорится "если это можно измерить - это можно улучшить".

Мне кажется, это действительно отличный бенчмарк, максимально приближенный к реальности. Тестировать ИИ на литкоде и олимпиадных задачках по алгоритмике - это, конечно, весело, но способность понять бизнес-требования и реально решить прикладную задачу - это совсем другое.

И мы можем увидеть, что уже сейчас ИИ смог выполнить задач на $400k из $1m - 40% от общей суммы. Не изолированных задачек на написание кода, а полноценной реализации фриланс заказов. Поэтому под этой новостью я буду особенно рад увидеть мои любимые комментарии "да никогда он никого не заменит, вы посмотрите как он пальцы на руках генерирует или считает количество букв в словах" smile

P.S. В своём телеграм-канале я матом заставляю ИИ писать мне код, обозреваю свежие новости технологий, а ещё публикую эти самые новости раньше всех. Регулярно даю глубокую аналитику по отрасли и всем событиям, и рассказываю как создавать собственных ИИ-агентов и приложения с ИИ. И много других интересных непотребств. Велком!