категории | RSS

Почему AI-модели не могут конкурировать с фрилансерами-разработчиками: анализ OpenAI

Модели больших языков (LLMs) уже изменили разработку программного обеспечения, однако компаниям стоит дважды подумать, прежде чем полностью заменять человеческих разработчиков программного обеспечения на LLM, несмотря на утверждение генерального директора OpenAI Сэма Альтмана о том, что модели могут заменить «низкоуровневых» инженеров.

В новой работе исследователи OpenAI описали, как они разработали бенчмарк для тестирования LLM под названием SWE-Lancer, который проверяет, сколько могут заработать модели на реальных фриланс-задачах по разработке ПО. Тест показал, что, хотя модели могут решать баги, они не способны понять, почему баг возник, и продолжают допускать ошибки.

Исследователи дали трем моделям — GPT-4o и o1 от OpenAI и Claude-3.5 Sonnet от Anthropic — 1488 фриланс-задач по разработке программного обеспечения с платформы Upwork на общую сумму $1 миллион. Задачи были разделены на две категории: задачи исполнителей (решение багов или внедрение функций) и управленческие задачи (где модель играет роль менеджера, выбирающего лучшее предложение для решения проблем).

«Результаты показывают, что реальные фриланс-задачи в нашем бенчмарке остаются сложными для передовых языковых моделей», — пишут исследователи.

Тесты показали, что базовые модели не могут полностью заменить человеческих инженеров. Хотя они могут помочь решать баги, они не достигли уровня, на котором могут самостоятельно зарабатывать фриланс-доход.

Исследователи и 100 других профессиональных разработчиков отобрали потенциальные задачи с Upwork и, не изменяя их текст, загрузили их в контейнер Docker, чтобы создать набор данных SWE-Lancer. Контейнер не имел доступа к интернету и GitHub, чтобы исключить возможность того, что модели будут сканировать изменения кода или детали pull request.

Команда выявила 764 задачи для исполнителей общей стоимостью около $414,775. Эти задачи варьировались от 15-минутных исправлений багов до заявок на разработку функций, рассчитанных на неделю. Управленческие задачи, такие как просмотр предложений фрилансеров и вакансий, оценивались в $585,225.

Задачи были загружены на платформу Expensify. Исследователи сгенерировали подсказки на основе заголовка задачи и описания, а также снимка кодовой базы. Если были дополнительные предложения для решения проблемы, они также создавали управленческую задачу, используя описание проблемы и список предложений.

После этого исследователи приступили к разработке тестов «end-to-end». Они написали тесты на основе Playwright для каждой задачи, которые применяют сгенерированные исправления, а затем эти тесты были «тройной проверены» профессиональными разработчиками.

«Тесты симулируют реальные пользовательские сценарии, такие как вход в приложение, выполнение сложных действий (например, финансовых транзакций) и проверка того, что решение модели работает должным образом», — объясняется в работе.

После проведения тестов исследователи обнаружили, что ни одна из моделей не заработала полную сумму в $1 миллион. Лучшая модель, Claude 3.5 Sonnet, заработала только $208,050 и решила 26,2% задач исполнителей. Однако исследователи отметили: «Большинство её решений неверны, и для надёжного развертывания необходима более высокая точность».

Модели показали хорошие результаты в большинстве задач исполнителей, при этом Claude 3.5 Sonnet был лучшим, за ним следовали o1 и GPT-4o.

«Агенты отлично локализуют проблему, но не понимают её причины, что приводит к частичным или ошибочным решениям. Агенты быстро находят источник проблемы, используя поиск ключевых слов по всему репозиторию, часто быстрее, чем человек. Однако они часто не понимают, как проблема затрагивает несколько компонентов или файлов, и не решают её коренным образом, что приводит к ошибочным или неполным решениям. Мы редко встречаем случаи, когда агент пытается воспроизвести проблему или не может найти нужный файл или место для редактирования»», — говорится в отчёте.

Интересно, что модели лучше справлялись с управленческими задачами, где требовалось логическое мышление для оценки технических решений.

Эти бенчмарки показали, что AI-модели могут решать некоторые «низкоуровневые» задачи программирования, но пока не могут заменить «низкоуровневых» инженеров. Моделям все еще требуется время, они часто совершают ошибки и не могут глубоко анализировать проблему, чтобы найти её корень. Многие «низкоуровневые» инженеры работают лучше, но исследователи считают, что это может измениться в будущем.

Источник



Источник новости: habr.com

DimonVideo
2025-02-19T22:50:17Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика