Для «отравления» ИИ хватит 0,00 016% от всего обучающего набора данных

Новости ПО

17:13 10-10-2025

DimonVideo

Исследователи из Anthropic выяснили, что чтобы вывести из строя крупную языковую модель, достаточно всего 250 специально подготовленных документов — это около 0,00 016% от всего обучающего набора данных модели с 13 млрд параметров.

Атака, известная как отравление данных, подразумевает внесение вредоносной информации в обучающие наборы, чтобы ИИ выдавал ошибочные ответы или выполнял недопустимые действия. В эксперименте учёные добавляли в документы «триггерную фразу» и случайные бессмысленные токены. После обучения модель начинала выдавать «бессмыслицу» при появлении этой фразы в запросе.

Исследование показало, что любая модель, независимо от размера — от 600 млн до 13 млрд параметров, — становилась уязвимой, если количество вредоносных документов превышало 250. Проверялись в том числе GPT-3.5-Turbo и Pythia.

Учёные отмечают, что их работа касалась простых атак типа «отказ в обслуживании» и не изучала более опасные варианты, например обход защитных ограничений ИИ.

Anthropic подчёркивает, что, хотя публикация результатов может дать подсказки потенциальным преступникам, польза для общества перевешивает риск.

Источник новости: www.ferra.ru

Чат в Telegram

Регистрация

Войти

Главная

Опросы

Форум

Обзор новинок

Обменник

Android

Трекер

PC

Видео

Картинки

Новости

Разные новости

Статьи

Блоги

Комментарии

ПОДДЕРЖИ сайт

Для «отравления» ИИ хватит 0,00 016% от всего обучающего набора данных

Новости ПО

Похожие файлы

Для получения патчей безопасности Windows в Европе всё равно нужна учётная запись

Популярные бесплатные приложения для Android

В YouTube Music появился перевод текстов песен на другие языки

В магазине циферблатов для часов Huawei появилось более 100 000 вариантов