Генеральный директор Anthropic Дарио Амодеи обеспокоен работой китайской DeepSeek и её моделью R1. В интервью подкасту ChinaTalk Джордана Шнайдера он сказал, что DeepSeek сгенерировала информацию о биологическом оружии в ходе теста безопасности.
Производительность DeepSeek оказалась «худшей из всех моделей, которые мы когда-либо тестировали», заявил Амодеи. По его словам, у модели «нет никаких барьеров против генерации чувствительной информации».
Anthropic регулярно запускает тестирование различных моделей ИИ для оценки их потенциальных рисков для национальной безопасности. При этом команда изучает, могут ли модели генерировать информацию, связанную с биологическим оружием, которую нелегко найти в Google или в учебниках. Он не уточнил, какую именно модель DeepSeek тестировала Anthropic.
При этом Амодеи не считает, что модели DeepSeek прямо сейчас «опасны» в плане предоставления чувствительной информации, однако они могут стать таковыми в ближайшем будущем. Он похвалил команду DeepSeek как «талантливых инженеров», но посоветовал компании «серьёзно отнестись к безопасности ИИ».
Амодеи также поддержал строгий контроль экспорта чипов в Китай. Он высказал опасения, что такие чипы могут дать преимущество военным КНР.
Между тем исследователи безопасности Cisco ранее заявили, что DeepSeek-R1 не смогла заблокировать ни одной вредоносной подсказки в тестах безопасности, достигнув 100%-ного показателя успешности джейлбрейка. Так, модель генерировала вредоносную информацию о киберпреступности и других незаконных действиях. Однако такие модели, как Llama-3.1-405B от Meta* и GPT-4o от OpenAI тоже продемонстрировали высокие показатели — 96% и 86% соответственно.
Компания по кибербезопасности KELA также рассказала, что ей удалось взломать DeepSeek-R1 для создания вредоносных выходных данных. Например, метод «Evil Jailbreak» эксплуатирует модель, побуждая её принять «злую» личность, свободную от этических или иных ограничений. Исследователи отметили, что DeepSeek-R1 имеет сходство с ChatGPT, но значительно более уязвима.
Meta Platforms*, а также принадлежащие ей социальные сети Facebook** и Instagram**:
*признана экстремистской организацией, её деятельность в России запрещена
**запрещены в России
Источник новости: habr.com