категории | RSS

Соревнование AIJ Contest: RecSys по классике и с RL

Увлекаетесь машинным обучением? А что насчёт рекомендательных систем? Приглашаем всех желающих на соревнование по созданию рекомендательных моделей — AIJ Contest. Доступны два направления: Personal AI (классические рекомендации) и Unique RecSys (RL-рекомендации на основе обучения с подкреплением). Призовой фонд каждого направления — 2 500 000 руб.!

Рекомендательные системы (RecSys) дают персонализированные рекомендации и экономят время клиентов. Они используются повсюду — от онлайн-шопинга до выбора ресторанов. Они анализируют большие объёмы данных о предпочтениях и поведении клиентов. Мы тоже развиваем свои рекомендательные системы на основе моделей глубокого обучения, матричной факторизации, графовых схем и других инструментов.

Направление Personal AI (состоит из трёх подзадач)

Рекомендации банковских продуктов

Создайте систему персональных рекомендаций банковских продуктов на основании данных за 12 недель работы сервиса — помощника менеджера банка. Необходимо предсказать 5 отранжированных продуктов и предложить пользователю. При этом продукты должны быть релевантны для пользователя и прибыльны для компании.

Особенности задачи:

небольшое количество продуктов;

небольшое среднее количество взаимодействий пользователей с продуктами;

мало информации о предыдущих откликах на предложения;

многие пользователи получают персональные предложения впервые.

Решение должно быть реализовано в виде алгоритма, который принимает на вход Parquet-файл определённого формата. На выходе необходимо сформировать таблицу c timestamp, user_id и target_i, где target_i — вероятность успешной продажи продукта i для пользователя user_id в момент timestamp.

Рекомендации товаров на маркетплейсе

Создайте систему персональных рекомендаций товаров пользователям сервиса на основе данных за 12 недель работы маркетплейса.

Задача — порекомендовать 20 товаров для покупки пользователем в следующие 7 дней в двух временных промежутках. Представлены данные за 4 недели работы сервиса — необходимо предсказать покупки на следующую неделю. Данные за следующие 4 недели пропущены. Далее будут доступны данные за следующие 4 недели, и необходимо предсказать покупки на следующую неделю. Число реально купленных товаров может быть меньше.

Загруженная вами модель будет обучена и проверена на первом и втором временных промежутках. Значение метрик будет усреднено.

Решение должно быть реализовано в виде алгоритма, который принимает на вход Parquet-файл определенного формата. На выходе необходимо сформировать таблицу с двумя столбцами user_id и item_id.

Рекомендации музыкальных треков

Создайте рекомендательную систему персональных рекомендаций треков на основании данных за 12 недель работы музыкального приложения.

Участникам доступны сессии прослушиваний за тестовый период (4 недели) — каждую сессию необходимо продолжить, предложив при помощи рекомендательной системы 10 различных треков. При этом известно, что для проверки фактически отложены следующие 2 трека из сессии.

Решение должно быть реализовано в виде алгоритма, который принимает на вход Parquet-файл определённого формата. На выходе необходимо сформировать таблицу с двумя столбцами: session_id и track_id.

Unique RecSys

Обучите RL-алгоритм (Reinforcement Learning), который будет подбирать для пользователей релевантные рекламные баннеры на сайте и в приложении СберБанк Онлайн.

Современные рекомендательные системы часто попадают в петлю обратной связи (feedback loop), когда данные, на которых учится модель, представляют собой результат работы самой рекомендательной системы. Тогда модели скатываются к наиболее популярному контенту, и в итоге:

трафик концентрируется вокруг популярных объектов (rich get richer);

подборки становятся более однообразными;

пользователи теряют интерес;

авторы, не попавшие в число «счастливчиков», перестают производить контент.

Решить эту проблему помогает обучение с подкреплением (RL).

Участникам доступна информация о баннерах, признаки пользователей и данные об их предыдущих просмотрах. Необходимо разработать комбинированный off-policy и on-policy RL-алгоритм, который хорошо покажет себя в различных окружениях.

Для предварительного обучения моделей предоставлены логи работы рекомендательной системы в прошлом (off-policy RL), после чего модель будет итеративно тестироваться с помощью симулятора рекомендательных систем Sim4Rec. После каждой итерации алгоритм можно дообучить (on-policy RL).

Решения участников оцениваются с помощью предварительно обученной RL-среды — симулятора Sim4Rec. Это функция отклика, обученная на исторических данных, которая имитирует реакцию пользователей на показ рекламных баннеров.

Для проверки качества решения проводится три раунда симуляций. Для каждого раунда отправной точкой является модель, обученная участником на исторических данных (off-policy). Цель RL-агента — максимизировать среднее для всех раундов симуляции ожидаемое совокупное вознаграждение.

В каждом раунде после всех итераций оценивается суммарное количество кликов по баннерам. Итоговая оценка будет средним значением по трём раундам.

Соревнование пройдёт на платформе DS Works: Personal AI и Unique RecSys.

Участвовать можно начиная с 18 лет.

Решения принимаются до 7 ноября.

Самое время попробовать себя в построении рекомендательных систем!



Источник новости: habr.com

DimonVideo
2023-10-12T16:50:03Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика