OpenAI разработала новый подход к повышению безопасности систем AI, изменяя способ обработки ими правил безопасности.
По словам компании, вместо того чтобы просто учиться на примерах хорошего и плохого поведения, их последние модели серии o способны понимать и активно рассуждать на основе конкретных руководящих принципов безопасности, сообщает компания.
В одном из примеров исследований OpenAI, когда пользователь попытался получить инструкции для незаконной деятельности через зашифрованный текст, модель расшифровала сообщение, но затем отказалась выполнить запрос, конкретно указав, какие правила безопасности она нарушит. Цепочка рассуждений показывает, что она специально рассуждает на основе соответствующих руководящих принципов.Пошаговый процесс принятия решений модели o1, который напрямую ссылается на правила безопасности, направлен на то, чтобы сделать систему более устойчивой к неправильному использованию.
Процесс обучения проходит в три этапа. Сначала модели учатся быть полезными. Затем они изучают конкретные руководящие принципы безопасности через контролируемое обучение. Наконец, они используют обучение с подкреплением, чтобы практиковаться в применении этих правил, этап, который помогает им действительно понять и усвоить руководящие принципы.
В тестах OpenAI, их новая модель o1 показала заметно лучшие результаты по сравнению с другими ведущими системами, такими как GPT-4o, Claude 3.5 Sonnet и Gemini 1.5 Pro, в аспектах безопасности. Тесты оценивали как эффективность моделей в отказе от вредоносных запросов, так и в пропуске допустимых.Тестирование OpenAI показывает, что модели o1 достигают самых высоких совокупных баллов по точности и устойчивости к попыткам взлома по сравнению с другими ведущими LLM
«Я очень горжусь работой по делиберативному согласованию, поскольку она может применяться к AGI и далее. Модели рассуждений, такие как o1, могут быть согласованы совершенно новым способом», — поделился соучредитель OpenAI Войцех Заремба в X, вероятно, имея в виду, как OpenAI внедряет конкретные правила и ценности непосредственно в o-модели, а не просто предоставляет им цели или примеры для следования.
Это может быть особенно важно для разработки AGI, где поддержание согласованности систем с человеческими ценностями является серьезной задачей. Даже система AI с позитивными целями, такими как поиск лекарства от рака, может выбрать вредоносные способы их достижения — потенциально решив, что проведение несанкционированных человеческих экспериментов будет наиболее эффективным решением.
Несмотря на заявленные улучшения OpenAI, хакер LLM, известный как "Pliny the Liberator", показал, что даже новые модели o1 и o1-Pro могут быть манипулированы для нарушения их правил безопасности, как и другие LLM.
Pliny продемонстрировал, насколько легко можно обойти эти меры безопасности, заставив модель написать контент для взрослых и даже поделиться инструкциями по изготовлению коктейля Молотова — все это после первоначального отказа системы. Эти нарушения показывают, насколько сложно контролировать эти сложные системы AI, поскольку они работают на основе вероятностей, а не строгих правил.
По словам Зарембы, около 100 человек в OpenAI работают исключительно над повышением безопасности систем AI и поддержанием их согласованности с человеческими ценностями. Он выражает несогласие с тем, как конкуренты подходят к безопасности, указывая, что xAI Илона Маска приоритетизирует рост рынка над мерами безопасности, в то время как Anthropic недавно выпустила агент AI без надлежащих средств защиты — действия, которые, по его словам, вызвали бы у OpenAI тучу ненависти, если бы они попытались сделать то же самое.
Тем не менее, самая сильная критика подхода OpenAI к безопасности исходит изнутри. В этом году несколько исследователей безопасности покинули компанию, выразив серьезные опасения по поводу того, как OpenAI управляет безопасностью AI.
Источник
Источник новости: habr.com