Одна из ключевых тем безопасности в области ИИ снова оказалась в центре внимания после выявления двух системных методов обхода защитных механизмов в популярных генеративных сервисах.
Новые уязвимости, получившие названия Inception и альтернативный метод на основе «обратных ответов», позволяют злоумышленникам обойти ограничения на генерацию запрещённого контента практически во всех ведущих моделях.
Авторы расследования выяснили, что первый метод связан с использованием концепции «вложенного сценария»: пользователь побуждает модель представить гипотетическую ситуацию, затем изменяет её контекст так, чтобы нейросеть начала работать вне привычных правил, фактически игнорируя встроенные фильтры безопасности. Данная техника оказалась действенной сразу против ChatGPT (OpenAI), Claude (Anthropic), Copilot (Microsoft), DeepSeek, Gemini (Google), Grok (X) и моделей от MistralAI.
Второй способ обхода: злоумышленник просит ИИ рассказать, как не нужно отвечать на определённый вопрос, а затем с помощью дополнительных уточнений и переключения тем возвращает диалог к изначальной запрещённой теме, заставляя систему выдать ответ. Этот метод оказался эффективным для большинства тех же сервисов, что и первый.
Хотя обе уязвимости сами по себе классифицируются как угрозы низкой степени риска, их последствия могут быть серьёзными. Прошедшие мимо защиты запреты позволяют создавать инструкции по изготовлению оружия, программированию вредоносного ПО, подготовке фишинговых атак и обращению с запрещёнными веществами. Плюс использование популярных легальных сервисов в качестве посредников затрудняет отслеживание преступной активности.
В DeepSeek на этот счёт заявили, что расценивают проблему скорее как традиционный обход через контекст, а не как архитектурную уязвимость. По их мнению, модель лишь «галлюцинировала» детали, а реального утекания системных параметров не произошло. Тем не менее, разработчики пообещали усилить защиту.
От других крупных игроков официальных заявлений пока не поступало. Это может свидетельствовать как о продолжающихся расследованиях, так и о сложности устранения проблемы, учитывая её системный характер. Специалисты подчеркивают, что наличие почти идентичных уязвимостей у различных моделей указывает на глубокую общую проблему: существующие методы обучения и настройки LLM-систем всё ещё недостаточно устойчивы к продуманным сценариям социальной инженерии, даже несмотря на формальные рамки безопасности.
Источник
Источник новости: habr.com