категории | RSS

«Википедия» представила набор данных для обучения ИИ ради борьбы со скрейпингом

«Википедия» пытается решить проблему перегрузки своих серверов из-за агентов ИИ, которые занимаются веб-скрейпингом. Интернет-энциклопедия выпустила набор данных, специально оптимизированный для обучения моделей искусственного интеллекта. 

Фонд Wikimedia заключил партнёрское соглашение с Kaggle — платформой сообщества науки о данных, принадлежащей Google, где размещаются данные машинного обучения, — для публикации бета-набора данных «структурированного контента “Википедии” на английском и французском языках».

Этот набор «создали с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа и выравнивания. Содержимое набора данных имеет открытую лицензию и включает обзоры исследований, краткие описания, ссылки на изображения, данные информационных полей и разделы статей — за исключением ссылок или мультимедийных элементов, таких как аудиофайлы.

«Хорошо структурированные JSON-представления контента Wikipedia, доступные пользователям Kaggle, должны стать более привлекательной альтернативой скрейпингу или парсингу сырого текста статьи», — уверены в Wikimedia. 

У фонда уже есть соглашения об обмене контентом с Google и Internet Archive, но партнерство с Kaggle должно сделать эти данные более доступными для небольших компаний и независимых учёных.

Между тем анонимный разработчик выпустил специальный лабиринт с открытым исходным кодом, чтобы заманивать в ловушку обучающих ИИ веб-сканеров в бесконечно и случайно генерируемую серию страниц. Программу под названием Nepenthes могут развернуть владельцы ресурсов.



Источник новости: habr.com

DimonVideo
2025-04-18T08:50:02Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика