категории | RSS

Новое исследование показывает, что модели OpenAI «запоминают» защищенный авторским правом контент

Новое исследование, по-видимому, подтверждает утверждения о том, что OpenAI обучала по крайней мере некоторые из своих моделей AI на контенте, защищенном авторским правом. OpenAI втянута в иски, поданные авторами, программистами и другими правообладателями, которые обвиняют компанию в использовании их работ — книг, кодовых баз и т. д. — для разработки своих моделей без разрешения.

OpenAI давно заявляет о защите добросовестного использования, но истцы в этих делах утверждают, что в законе США об авторском праве нет исключения для обучающих данных. Исследование, соавторами которого стали ученые из Вашингтонского университета, Копенгагенского университета и Стэнфорда, предлагает новый метод идентификации обучающих данных, «запомненных» моделями API, например OpenAI.

Модели — это предиктивные машины. Обученные на большом количестве данных, они изучают закономерности — вот как они могут генерировать эссе, фотографии и многое другое. Большинство выходных данных не являются дословными копиями обучающих данных, но из-за того, как модели «обучаются», некоторые неизбежно являются таковыми. Было обнаружено, что модели изображений воспроизводят скриншоты из фильмов, на которых они обучались, в то время как языковые модели были замечены в эффективном плагиате новостных статей.

Соавторы исследовали несколько моделей OpenAI, включая GPT-4 и GPT-3.5, на предмет признаков запоминания, удаляя неожиданно неожиданные слова из фрагментов художественных книг и статей New York Times и заставляя модели пытаться «угадать», какие слова были замаскированы. Если моделям удавалось угадать правильно, то, скорее всего, они запомнили фрагмент во время обучения, заключили соавторы.Пример того, как модель «угадывает» очень неожиданное слово. Источники изображений: OpenAI

Согласно результатам тестов, GPT-4 показала признаки запоминания частей популярных художественных книг, включая книги из набора данных, содержащего образцы защищенных авторским правом электронных книг под названием BookMIA. Результаты также показали, что модель запоминала части статей New York Times, хотя и сравнительно более низкой скоростью.

Абхилаша Равичандер, докторант Вашингтонского университета и соавтор исследования, рассказал TechCrunch, что результаты проливают свет на «спорные данные», на которых могли обучаться модели.

«Чтобы иметь большие языковые модели, которые заслуживают доверия, нам нужны модели, которые мы можем проверять, проверять и изучать с научной точки зрения», — сказал Равичандер. «Наша работа направлена ​​на предоставление инструмента для проверки больших языковых моделей, но существует реальная потребность в большей прозрачности данных во всей экосистеме».

OpenAI давно выступает за  более мягкие ограничения  на разработку моделей с использованием данных, защищенных авторским правом. Хотя компания имеет определенные соглашения о лицензировании контента и предлагает механизмы отказа, которые позволяют владельцам авторских прав помечать контент, который они предпочли бы, чтобы компания не использовала в учебных целях, она лоббировала несколько правительств, чтобы они кодифицировали правила «добросовестного использования» вокруг подходов к обучению ИИ.

Источник



Источник новости: habr.com

DimonVideo
2025-04-06T14:50:01Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика