5 июля мы проводим X5 Data Science Meetup #2. В этот раз поговорим о том, как с помощью PySpark Pipeline писать читаемый, легко тестируемый и поддерживаемый код, про квази-эксперименты методом Propensity Score в кейсах, где нельзя провести стандартный A/B-тест, и про подходы распознавания жестового языка.Программа и спикеры
18:00-18:30 — PySpark Pipeline в помощь аналитикам больших данных для построения качественных ETL-процессовДмитрий Чернышев
старший менеджер по анализу больших данных, X5 Tech
Расскажу про метод написания кода на PySpark таким образом, чтобы он был более читаем, легко тестируем и поддерживаем. Слушатели узнают, как решить проблему документирования кода и логики пайплайнов, а также как стандартизировать работу с аналитическими пайплайнами.
18:30-19:00 — Propensity Score: как оценить эффект без стандартных A/B-тестовНаталья Илюнькина
аналитик, группа клиентской аналитики Яндекс Маркета
Недавно нашей команде поставили задачу — оценить, как Маркет15, который раскатили в некоторых городах, влияет на частотность заказов в Маркете. Аналитики часто встречаются с подобными кейсами, где нельзя провести стандартный A/B тест. Будем разбираться, как можно их решить с помощью квази-экспериментов методом Propensity Score. Также поговорим о том, где нужны подобные квази-эксперименты, сделаем их разбор, обсудим подводные камни подхода и реальную задачу от постановки до получения финальных результатов.
19:00-19:30 — SLOVO: датасет русского жестового языка. Мотивация, проблемы и примененияАлександр Нагаев
CV engineer, SberDevices
Поговорим о том, почему проблема распознавания жестового языка была всегда и почему только сейчас можно говорить о её решениях. А также о том, с какими трудностями может столкнуться разработчик при сборе данных и какие есть современные подходы для решения этой задачи на основе нейронных сетей.
Зарегистрироваться на митап можно здесь.
Будем очень рады вас видеть!
Источник новости: habr.com