категории | RSS

Исследователи из Anthropic выяснили, что чтобы вывести из строя крупную языковую модель, достаточно всего 250 специально подготовленных документов — это около 0,00 016% от всего обучающего набора данных модели с 13 млрд параметров.

Атака, известная как отравление данных, подразумевает внесение вредоносной информации в обучающие наборы, чтобы ИИ выдавал ошибочные ответы или выполнял недопустимые действия. В эксперименте учёные добавляли в документы «триггерную фразу» и случайные бессмысленные токены. После обучения модель начинала выдавать «бессмыслицу» при появлении этой фразы в запросе.

Исследование показало, что любая модель, независимо от размера — от 600 млн до 13 млрд параметров, — становилась уязвимой, если количество вредоносных документов превышало 250. Проверялись в том числе GPT-3.5-Turbo и Pythia.

Учёные отмечают, что их работа касалась простых атак типа «отказ в обслуживании» и не изучала более опасные варианты, например обход защитных ограничений ИИ.

Anthropic подчёркивает, что, хотя публикация результатов может дать подсказки потенциальным преступникам, польза для общества перевешивает риск.



Источник новости: www.ferra.ru

DimonVideo
2025-10-10T17:13:02Z

Здесь находятся
всего 0. За сутки здесь было 0 человек