На этой неделе DeepSeek, хорошо финансируемая китайская лаборатория AI, выпустила «открытую» модель AI, которая превосходит многих конкурентов по популярным показателям. Модель DeepSeek V3 крупная, но эффективная, легко справляется с задачами на основе текста, такими как программирование и написание эссе. Она также, похоже, считает себя ChatGPT.
Посты в X показывают, что DeepSeek V3 идентифицирует себя как ChatGPT, платформу чат-ботов на базе AI от OpenAI. Когда ее просят пояснить, DeepSeek V3 настаивает на том, что она является версией модели OpenAI GPT-4, выпущенной в 2023 году.
Заблуждения глубоки. Если спросить DeepSeek V3 о ее API, она даст инструкции по использованию API OpenAI. DeepSeek V3 даже рассказывает некоторые из тех же шуток, что и GPT-4 — вплоть до концовок.
Что же происходит? Модели, такие как ChatGPT и DeepSeek V3, являются статистическими системами. Обученные на миллиардах примеров, они изучают модели в этих примерах, чтобы делать прогнозы — например, как «кому» в письме обычно предшествует «может быть интересно».
DeepSeek не раскрыла много информации о источниках данных для обучения DeepSeek V3. Но существует немало публичных наборов данных, содержащих текст, сгенерированный GPT-4 через ChatGPT. Если DeepSeek V3 была обучена на этих данных, модель могла запомнить некоторые из выводов GPT-4 и теперь воспроизводить их дословно.
«Очевидно, что модель в какой-то момент видит сырые ответы от ChatGPT, но не ясно, где именно», — сказал Майк Кук, научный сотрудник Королевского колледжа Лондона, специализирующийся на AI. «Это может быть ‘случайно’ … но, к сожалению, мы видели случаи, когда люди напрямую обучали свои модели на выводах других моделей, чтобы попытаться воспользоваться их знаниями».
Кук отметил, что практика обучения моделей на выводах конкурирующих систем AI может быть очень плохой для качества модели, поскольку это может привести к галлюцинациям и вводящим в заблуждение ответам, как выше. «Как при копировании копии, мы теряем все больше информации и связи с реальностью», — сказал Кук.
Это также может противоречить условиям использования этих систем. Условия OpenAI запрещают пользователям своих продуктов, включая клиентов ChatGPT, использовать выводы для разработки моделей, которые конкурируют с собственными моделями OpenAI.
OpenAI и DeepSeek не сразу ответили на запросы о комментариях. Однако генеральный директор OpenAI Сэм Альтман в пятницу опубликовал, что, как кажется, было намеком на DeepSeek и других конкурентов в X.
«Относительно легко скопировать что-то, что вы знаете, что работает», — написал Альтман. «Чрезвычайно трудно сделать что-то новое, рискованное и сложное, когда вы не знаете, сработает ли это».
Конечно, DeepSeek V3 далеко не первая модель, которая неправильно себя идентифицирует. Google’s Gemini и другие иногда утверждают, что они являются конкурирующими моделями. Например, на мандаринском языке Gemini утверждает, что это чат-бот Wenxinyiyan китайской компании Baidu.
И это потому, что интернет, из которого компании AI получают большую часть своих обучающих данных, становится переполненным «мусором» от AI. Контентные фермы используют AI для создания кликбейта. Боты заполняют Reddit и X. По одной оценке, к 2026 году 90% интернета может быть сгенерировано AI.
Эта «загрязненность», если угодно, значительно усложнила тщательную фильтрацию выводов AI из обучающих наборов данных. Вполне возможно, что DeepSeek обучила DeepSeek V3 непосредственно на тексте, сгенерированном ChatGPT. Ведь Google однажды обвинили в том же.
Хейди Хлааф, главный научный сотрудник AI Now Institute, заявила, что экономия средств за счет «дистилляции» знаний существующей модели может быть привлекательной для разработчиков, несмотря на риски.
«Даже с интернет-данными, теперь переполненными выводами AI, другие модели, которые случайно обучались на выводах ChatGPT или GPT-4, не обязательно демонстрировали бы выводы, напоминающие настроенные сообщения OpenAI», — сказала Хлааф. «Если это так, что DeepSeek частично провела дистилляцию, используя модели OpenAI, это не было бы удивительным».
Скорее всего, однако, в набор данных для обучения DeepSeek V3 попало много данных ChatGPT/GPT-4. Это означает, что модели нельзя доверять в плане самоидентификации, во-первых. Но более тревожным является возможность того, что DeepSeek V3, некритично поглощая и усваивая выводы GPT-4, может усугубить некоторые из предвзятостей и недостатков модели.
Источник
Источник новости: habr.com