OpenAI выпустили Operator – ИИ-агента для автономного управления компьютером

Разное

22:50 23-01-2025

DimonVideo

OpenAI выпустили Operator – ИИ-агента для автономного управления компьютером

Да, это тот самый агент, о котором так много писали в СМИ, и которого так долго ждали все любители ИИ. Это система на основе GPT-4o, которая может самостоятельно управлять компьютером, выполнять сложные задачи и взаимодействовать с браузером. Например, с помощью Operator можно заказать доставку, спланировать путешествие, забронировать столик и так далее.

Конечно, это все еще не уровень человека, но уже очень значимое достижение. Агент уже доступен пользователям по подписке Pro (200$/месяц), позже обещают раскатить на плюс-юзеров.

В разработке агентов Operator – новое слово. Ранее подобные системы уже выпускали Anthropic и Google, однако судя по всему, Operator значительно их превосходит.

К слову, как раз вчера также вышла первая опенсорсная версия такого агента, ее представили ученые из ByteDance (aka TikTok). Отступление: здесь мы не будем подробно рассказывать о том, как работают такие системы под капотом, но если вам это интересно, можете как раз почитать наш разбор агента UI-TARS от ByteDance.

А если хотите каждый день читать что-нибудь интересное про ML, то приглашаем вас в наш тг-канал Data Secrets. Там мы (а мы – это команда действующих ML-инженеров) каждый день наблюдаем за повесткой, публикуем разборы свежих статей и релизов и делимся прикладными материалами. А еще наше большое сообщество всегда радо новым специалистам и энтузиастам smile

Ранее, кстати, The Information писали о том, что OpenAI так долго тянули с релизом, потому что очень долго занимались безопасностью своего агента. В частности, основной проблемой являлись так называемые prompt injection атаки. Это когда вредоносные сайты крадут ваши данные через агента. При этом вы, как пользователь, ни о чем не подозреваете, потому что у вас нет контроля за тем, какие данные с сайтов или вашего ПК поглощает моделька.

OpenAI решили эту проблему достаточно изящно: агент, фактически, не получает доступ к вашему компьютеру, он разворачивает виртуальную машину прямо внутри чата, и все действия происходят там.

Надо сказать, что релиз вообще стал кульминацией слухов, которые ходили в сообществе уже давно. Первые утечки информации об Operator появились ещё несколько месяцев назад. Тогда Tibor Blaho, имеющий репутацию человека, который первым замечает и публикует намеки на новые модели и продукты, заметил в коде OpenAI эндпоинты, указывающие на Operator. А несколько дней назад издание Axios опубликовало статью о том, что Operator выйдет в ближайшее время.

Сегодня же, еще до официального релиза, некоторые пользователи подписки Pro ChatGPT стали делиться тем, что в интерфейсе у них появился раздел Operator, а после в ChatGPT произошел масштабный сбой, что, как мы знаем, тоже нередко указывает на предстоящие релизы smile

Operator – не просто очередной мощный релиз OpenAI. Это, по сути, переход на новую ступень развития ИИ. В сентябре Сэм Альтман в своем интервью рассказал о том, что по мнению стартапа таких ступеней всего пять:

Чат-боты

Ризонеры (рассуждающие чат-боты) <- системы вроде o1 от OpenAI или R1 от DeepSeek

Агенты <- вы находитесь здесь

Инноваторы (ИИ, который может делать научные открытия)

И, наконец, целые организации, состоящие из ИИ-агентов

Кроме Альтмана, на агентов также ставят большие ставки и другие CEO крупных компаний. В частности, недавно Марк Цукерберг сказал, что "Вполне вероятно, что в 2025 году в Meta мы уже получим AI-агентов, которые смогут полноценно выполнять работу миддл-инженеров, которые пишут код".