категории | RSS

Исследование Microsoft показывает, что модели AI по-прежнему испытывают трудности с отладкой программного обеспечения

Модели AI от OpenAI, Anthropic и других ведущих лабораторий AI все чаще используются для помощи в задачах программирования. Генеральный директор Google Сундар Пичаи заявил в октябре, что 25% нового кода в компании генерируется AI, а генеральный директор Meta* Марк Цукерберг выразил амбиции по широкому внедрению моделей кодирования AI в гиганте социальных сетей.

Однако даже некоторые из лучших современных моделей испытывают трудности с устранением ошибок программного обеспечения, которые не смутили бы опытных разработчиков.

Новое исследование Microsoft Research, научно-исследовательского подразделения Microsoft, показывает, что модели, включая Claude 3.7 Sonnet от Anthropic и o3-mini от OpenAI, не в состоянии отладить множество проблем в тесте разработки программного обеспечения под названием SWE-bench Lite. Результаты являются отрезвляющим напоминанием о том, что, несмотря на смелые заявления таких компаний, как OpenAI, AI по-прежнему не может сравниться с экспертами-людьми в таких областях, как кодирование.

Соавторы исследования протестировали девять различных моделей в качестве основы для агента, который имел доступ к ряду инструментов отладки, включая отладчик Python. Они поручили этому агенту решить курируемый набор из 300 задач по отладке программного обеспечения из SWE-bench Lite.

По словам соавторов, даже при оснащении более сильными и новыми моделями их агент редко успешно завершал более половины задач отладки. Claude 3.7 Sonnet имел самый высокий средний показатель успеха (48,4%), за ним следовали o1 от OpenAI (30,2%) и o3-mini (22,1%).Диаграмма из исследования. «Относительное увеличение» относится к моделям повышения производительности, полученным в результате оснащения их инструментами отладки.Источники изображений: Microsoft

Почему неудовлетворительная производительность? Некоторые модели испытывали трудности с использованием доступных им инструментов отладки и пониманием того, как разные инструменты могут помочь в решении разных проблем. Однако, по словам соавторов, большей проблемой была нехватка данных. Они предполагают, что в данных обучения текущих моделей недостаточно данных, представляющих «последовательные процессы принятия решений» — то есть следы отладки человеком.«Мы твердо убеждены, что обучение или тонкая настройка моделей может сделать их лучшими интерактивными отладчиками», — пишут соавторы в своем исследовании.

«Однако для этого потребуются специализированные данные для выполнения такого обучения модели, например, данные траектории, которые регистрируют взаимодействие агентов с отладчиком для сбора необходимой информации, прежде чем предлагать исправление ошибки».

Результаты не совсем шокируют. Многие исследования показали, что AI, генерирующий код, имеет тенденцию вносить уязвимости безопасности и ошибки из-за слабостей в таких областях, как способность понимать логику программирования.  Одна из недавних оценок Devin, популярного инструмента кодирования AI, показала, что он может выполнить только три из 20 тестов программирования.

Но работа Microsoft — один из наиболее подробных взглядов на постоянную проблемную область моделей. Она, скорее всего, не ослабит энтузиазм инвесторов в отношении вспомогательных инструментов кодирования на базе AI, но, если повезет, она заставит разработчиков — и их руководителей — дважды подумать, прежде чем позволить AI управлять шоу кодирования.

Как бы там ни было, все большее число лидеров в сфере технологий оспаривают идею о том, что AI автоматизирует работу по кодированию. Соучредитель Microsoft Билл Гейтс заявил, что, по его мнению, программирование как профессия останется. Так же считают генеральный директор Replit Амджад Масад, генеральный директор Okta Тодд Маккиннон и генеральный директор IBM Арвинд Кришна.

Meta* и ее продукты (Facebook, Instagram) запрещены на территории Российской Федерации

Источник



Источник новости: habr.com

DimonVideo
2025-04-11T08:50:02Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика