Датская группа по борьбе с пиратством Rights Alliance добилась удаления известного набора данных Books3, который использовался для обучения высококлассных моделей ИИ, в том числе компанией Meta*. Набор объёмом 37 ГБ включал почти 200 тысяч книг. huggingface.co
Датская служба по борьбе с пиратством отправила The Eye уведомление об удалении в соответствии с нормами DMCA.
Набор данных включал все книги с пиратского сайта Bibliotik. Он был впервые опубликован на The Eye в конце 2020 года и с тех пор использовался для обучения нескольких моделей ИИ.
Группа по борьбе с пиратством действовала от имени датских книжных издательств, чьи произведения были включены в базу данных.
«Крайне важно, чтобы мы могли предотвратить обучение ИИ на нелегальном контенте», — говорит директор «Альянса прав человека» Мария Фреденслунд.
Хотя наиболее распространённая ссылка для скачивания Books3 сейчас недоступна, резервная копия файла по-прежнему хранится на Wayback Machine Интернет-архива, и также распространяется через альтернативные источники.
Шон Прессер, который впервые поделился набором данных Books3, отмечает, что он включён в «The Pile», набор для обучения ИИ, составленный EleutherAI. Его торрент размещён на The Eye.
Вопрос об авторском праве при использовании данных для обучения ИИ поднимался неоднократно. Ранее Американская ассоциация звукозаписывающих компаний (RIAA) добилась удаления наборов данных, используемых для создания голосовых моделей.
Между тем два американских писателя подали в суд на компанию OpenAI за использование их произведений для обучения ИИ. Позднее ещё три автора в США подали два коллективных иска к OpenAI и Meta. Они заявили, что нейросети ChatGPT и LLaMA обучались на наборах данных из пиратских библиотек, таких как Bibliotik, Library Genesis и Z-Library.
*Meta Platforms признана экстремистской, её деятельность в России запрещена.
Источник новости: habr.com