категории | RSS

Исследование: нейросеть Devin, которую позиционируют как «ИИ-программиста», плохо справляется со своей работой

Инструмент Devin, который создатели позиционировали как замену программистам-людям, слабо справляется со своей работой. К такому выводу пришли специалисты научно-исследовательской лаборатории Answer.AI. Протестировав Devin, они обнаружили, что он успешно выполнил только три из двадцати задач. Devin «застревал» в заданиях или создавал слишком сложные, непригодные для использования решения.

Американский стартап Cognition представил нейросеть Devin в марте 2024 года. Разработчики рассказали, что инструмент способен рассуждать, самостоятельно планировать и реализовывать проекты в области написания ПО и принимать по мере их выполнения различные решения. Также ИИ проекта не только обучается, но и исправляет допущенные ошибки и ориентируется в контексте.

Согласно пояснению Cognition, основные возможности нейросети Devin включают в себя:

комплексную разработку приложений — создание и развёртывание полнофункциональных веб-приложений, добавление новых опций в проект по мере поступления отзывов от пользователей;

адаптацию к новым технологиям — освоение незнакомых инструментов с помощью чтения документации;

обучение ИИ — установка и настройка больших языковых моделей на основе инструкций из различных открытых репозиториев;

автономное обнаружение ошибок — выявление, исправление и отлаживание проблем в коде. В этом случае Devin выступает полноценным участником в разработке проектов;

умение самостоятельно решать программные задачи по веб-разработке и другим направлениям на различных биржах фриланса, включая Upwork.

Как сообщает The Register со ссылкой на исследователей из Answer.AI, испытания Devin начались хорошо: ИИ успешно перенёс данные из базы данных Notion в Google Таблицы и создал трекер для проверки информации о положениях Юпитера и Сатурна. Но по мере продолжения тестов исследователи столкнулись с проблемами.

«Задачи, которые казались простыми, часто занимали дни, а не часы, и Devin застревал в технических тупиках или создавал слишком сложные, непригодные для использования решения. Ещё более тревожной была тенденция нейросети продвигаться с задачами, у которых на самом деле нет решения».

Так, например, Devin попросили развернуть несколько приложений на платформе Railway. Инструмент не понял, что заданный тип приложений не поддерживается на платформе, и провёл больше дня, пробуя нерабочие подходы и галлюцинируя.

Из 20 задач Devin успешно выполнил только три. Помимо двух уже упомянутых, ИИ смог провести исследование разработки бота для Discord на Python. Три других задачи дали неопределённые результаты, а 14 проектов полностью провалились.

«Больше всего беспокоила наша неспособность предсказать, какие задачи будут выполнены успешно. Даже когда ИИ, казалось бы, одерживал победу, он одновременно терпел неудачу из-за сложных, отнимающих много времени способов. Многообещающая автономная природа инструмента стала обузой: Devin тратил дни на поиски невозможных решений вместо того, чтобы распознать задачи без решения».

Это не первый раз, когда работоспособность Devin ставится под сомнение. В апреле 2024 года пользователи Reddit обратили внимание на несостыковки в описании инструмента и промо-роликах.



Источник новости: habr.com

DimonVideo
2025-01-27T08:50:02Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика