категории | RSS

Новая модель LAM способна выполнять задачи в Word

Исследователи Microsoft разработали модель, которую они называют "Large Action Model" (LAM) — искусственный интеллект, способный самостоятельно управлять программами Windows. Это означает переход от AI, которые просто говорят о своих возможностях, к AI, которые действительно могут их реализовывать.

В отличие от традиционных языковых моделей, таких как GPT-4o, которые в основном обрабатывают и генерируют текст, LAM может преобразовывать запросы пользователей в реальные действия — будь то управление программным обеспечением или контроль над роботами. Хотя концепция не является абсолютно новой, это первая модель, специально обученная для работы с продуктами Microsoft Office.Разница между LLM и LAM становится очевидной, когда вы смотрите на что-то вроде онлайн-шопинга. В то время как обычные LLM могут рассказать вам, как делать покупки онлайн, LAM на самом деле могут перемещаться по интерфейсу и совершать покупки самостоятельно

LAM может понимать пожелания пользователей из различных типов входных данных — текста, голоса или изображений — и превращать эти запросы в подробные пошаговые планы. Более того, она способна корректировать свой подход на основе происходящего в реальном времени.

Создание LAM включает четыре основных этапа. Сначала модель учится разбивать задачи на логические шаги. Затем она учится у более продвинутого AI, такого как GPT-4o, превращать эти планы в действия. После этого модель самостоятельно ищет новые решения, даже справляясь с проблемами, которые ставили в тупик другие AI-системы. Наконец, систему дорабатывают посредством обучения на основе вознаграждений.Четырехфазный конвейер обучения LAM объединяет предварительное обучение по плану задач, экспертное обучение, самоподкрепляющееся исследование и оптимизацию на основе модели вознаграждения.

В качестве тестового примера они создали LAM на основе модели Mistral-7B и запустили её в тестовой среде Word. Она успешно выполнила задачи в 71% случаев, что значительно превзошло показатель GPT-4o в 63% (без визуальной информации).

LAM также была гораздо быстрее, требуя всего 30 секунд на задачу по сравнению с 86 секундами у GPT-4o. Однако, когда GPT-4o получала визуальную информацию, её точность была выше — 75,5%.

Команда начала с 29 000 пар "задача-план", собранных из документации, статей wikiHow и запросов в Bing. Для дальнейшего расширения они использовали GPT-4o для преобразования простых задач в более сложные. Например, базовая задача "Создать выпадающий список" преобразилась в "Создать зависимый выпадающий список, где первый выбор фильтрует варианты во втором списке."

Эта стратегия "эволюционирования данных" помогла им увеличить набор данных до 76 000 пар — рост на 150%. Из всех этих примеров около 2 000 успешных последовательностей действий вошли в окончательный тренировочный набор.Конвейер разработки LAM объединяет подготовку данных, обучение и реализацию в реальном мире в один непрерывный процесс. Агент связывает обученный LAM с определенными действиями Windows и использует обратную связь для внесения постоянных улучшений.

Система всё ещё сталкивается с рядом препятствий: существуют обоснованные опасения по поводу ошибок в действиях AI, регуляторные вопросы, требующие решения, а также технические ограничения, затрудняющие масштабирование или адаптацию к различным приложениям.

Несмотря на эти сложности, исследователи считают, что LAM представляют собой важный сдвиг в развитии AI и заявляют, что эти "Large Action Models" обозначают значительный шаг к AGI. Вместо систем AI, которые просто понимают и генерируют текст, в ближайшем будущем у нас могут появиться AI-помощники, которые активно помогают нам выполнять реальные задачи.

Источник



Источник новости: habr.com

DimonVideo
2025-01-02T02:50:02Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика