Изучение науки о данных с Rakamin Bootcamp: мой опыт и финальный проект

Как человек, который всегда рад работать с технологиями, я был очень рад присоединиться к учебному лагерю по науке о данных Академии Ракамина, чтобы углубить свои знания и навыки в этой области. В этом посте я хотел бы поделиться своим опытом буткемпа и моим финальным проектом, в котором я и моя команда применили наши знания для решения реальной проблемы.

Учебный курс Rakamin охватил широкий спектр практических курсов, от SQL до машинного обучения, и дал нам общее представление о том, как работает машинное обучение. Одним из основных моментов для меня было изучение того, как использовать Git для совместной работы, который я нашел мощным инструментом для совместной работы над проектами по науке о данных.

Для нашего финального проекта меня назначили руководителем команды EDA (эффективный, доминирующий, агрессивный). Нашей задачей было спрогнозировать отток клиентов для бизнеса электронной коммерции, используя предоставленный нам набор данных. Мы использовали Jupyter Labs для нашего анализа и сотрудничали через Github, чтобы убедиться, что все были на одной странице на протяжении всего проекта.

Нашим первым шагом было импортировать набор данных и провести исследовательский анализ данных (EDA), чтобы получить представление о данных. Из нашего EDA мы смогли дать рекомендации о том, какое лечение мы должны применить к данным. Мы испробовали различные подходы к прогнозированию оттока клиентов и обнаружили, что модель случайного леса работает лучше всего. Затем мы использовали анализ затрат и выгод, чтобы связать наши выводы с бизнесом и описать влияние наших прогнозов.

Оглядываясь назад, я могу сказать, что буткемп Rakamin был ценным опытом, который дал мне прочную основу в науке о данных. Хотя мы не использовали PyCaret в нашем финальном проекте, я вижу, как он может быть полезным инструментом для будущих проектов по науке о данных. В целом, я благодарен за возможность учиться и расти вместе с Ракамином, и я с нетерпением жду возможности применить свои навыки для решения реальных проблем в будущем.

Заключительный проект EDA TEAM: Прогноз оттока клиентов электронной коммерции Bebelanja

Профиль команды EDA: команда специалистов по данным, работающая в отделе обслуживания клиентов. Команда сосредоточена на сборе, анализе и понимании данных о клиентах, чтобы улучшить качество обслуживания клиентов.

Проблема : Bebelanja E-Commerce имела высокий уровень оттока (16,8%
Цель: Снизить уровень оттока за счет прогнозирования потенциальных клиентов. кто
уйдет с помощью машинного обучения
Цель:
 – Построение модели соответствия
 – Определите, какие функции могут предсказать потенциального оттока клиентов
 – Предоставление информации и рекомендаций для бизнес
Бизнес-показатели: коэффициент оттока

Описание данных

Business Insight после выполнения EDA:

  • Мобильная оптимизация имеет решающее значение для успеха бизнеса, учитывая, что предпочтительным устройством для входа в систему является мобильный телефон. Компания должна уделить первоочередное внимание тому, чтобы сделать свою платформу удобной и удобной для мобильных пользователей, чтобы обеспечить положительный пользовательский опыт и увеличить удержание клиентов. Следующим шагом является разработка специальных функций для мобильных устройств, таких как push-уведомления, персонализированные рекомендации и простые в использовании системы оформления заказов, чтобы повысить вовлеченность клиентов и снизить отток клиентов.
  • Популярность платежей дебетовыми и кредитными картами говорит о том, что предприятия электронной коммерции должны уделять первоочередное внимание внедрению безопасных и простых в использовании платежных систем, чтобы удовлетворить предпочтительные способы оплаты своих клиентов.
  • Учитывая, что преобладают пользователи, состоящие в браке, бизнес может захотеть разработать целевые маркетинговые кампании и рекламные акции, чтобы привлечь эту демографическую группу.
  • Тот факт, что основными категориями продуктов являются мобильные телефоны и ноутбуки/аксессуары, указывает на то, что бизнес должен сосредоточиться на расширении своих предложений в этих категориях, чтобы удовлетворить высокий спрос. Бизнес должен сосредоточиться на предложении ряда высококачественных и доступных моделей ноутбуков и аксессуаров для мобильных телефонов, чтобы удовлетворить различные потребности клиентов и бюджеты.
  • В среднем на каждую категорию продуктов приходится 28 % жалоб, поэтому компания должна сосредоточиться на повышении качества этих продуктов или предоставлении дополнительной информации о продукте, чтобы снизить вероятность жалоб клиентов. Это также возможность для предприятий электронной коммерции продемонстрировать свою приверженность удовлетворенности клиентов, предложив возмещение, обмен или другие компенсационные меры пострадавшим клиентам.
  • Клиенты, которые не совершали покупки в течение длительного времени, с большей вероятностью уйдут в будущем. Это понимание предполагает, что предприятия электронной коммерции должны сосредоточиться на разработке целевых маркетинговых кампаний, чтобы повторно привлечь бездействующих клиентов и стимулировать повторные покупки.
  • Уровень текучести CityTier 3 выше, чем у CityTier 1. Есть несколько возможностей, которые необходимо изучить дополнительно; клиент в CityTier 3 может иметь более низкую покупательную способность, ограниченный доступ к высокоскоростному Интернету или столкнуться с другими логистическими проблемами при доступе к платформам электронной коммерции, что приводит к более высокой вероятности оттока, различным предпочтениям и ожиданиям, снижению доверия к платформе электронной коммерции.

Бизнес-рекомендация от Business Insight:

  • Для оптимизации мобильных устройств компания должна инвестировать в адаптивный дизайн веб-сайта, обеспечивающий бесперебойную работу пользователей на всех устройствах. Им также следует рассмотреть возможность разработки функций для мобильных устройств, таких как push-уведомления, персонализированные рекомендации и простые в использовании системы оформления заказов.
  • Чтобы удовлетворить предпочтительные для клиентов способы оплаты, бизнес электронной коммерции должен внедрить безопасные и удобные платежные системы, поддерживающие платежи по дебетовым и кредитным картам.
  • Бизнес должен разработать целевые маркетинговые кампании и рекламные акции, чтобы привлечь доминирующую демографическую группу пользователей, состоящих из женатых мужчин. Кампании должны освещать продукты, которые популярны среди этой демографической группы.
  • Бизнес должен уделять первоочередное внимание расширению своих предложений в основных категориях продуктов, таких как мобильные телефоны и ноутбуки/аксессуары, чтобы удовлетворить высокий спрос.
  • Компания должна сосредоточиться на предложении ряда аксессуаров для мобильных телефонов, чтобы побудить клиентов покупать дополнительные продукты. Эта стратегия может помочь повысить лояльность и удержание клиентов.
  • Бизнес должен сосредоточиться на предложении ряда высококачественных и доступных моделей ноутбуков для удовлетворения различных потребностей клиентов и бюджетов. Эта стратегия может помочь повысить удовлетворенность и удержание клиентов.
  • Компания должна сосредоточиться на повышении качества продуктов с высоким уровнем жалоб или предоставлении дополнительной информации о продукте, чтобы снизить вероятность жалоб клиентов. Эта стратегия может помочь повысить удовлетворенность клиентов и снизить отток клиентов.
  • Бизнес электронной коммерции должен сосредоточиться на разработке целевых маркетинговых кампаний для повторного привлечения бездействующих клиентов и поощрения повторных покупок. Кампании должны предлагать стимулы, такие как эксклюзивные скидки или бесплатная доставка, чтобы побудить клиентов совершить покупку.
  • Чтобы решить проблему высокого уровня оттока в CityTier 3, бизнес электронной коммерции должен провести дополнительные исследования, чтобы понять основные причины оттока. Исследование должно быть сосредоточено на выявлении любых проблем, с которыми могут столкнуться клиенты CityTier 3 при доступе к платформе, и на внесении необходимых изменений для улучшения взаимодействия с пользователем. Кроме того, бизнесу следует рассмотреть возможность предложения более доступных продуктов или вариантов оплаты для преодоления бюджетных ограничений и укрепления доверия клиентов в этих областях путем улучшения обслуживания клиентов и предложения прозрачных цен.

Предварительная обработка данных

  • Обработка дублирующихся данных
  • Обработка пропущенного значения
  • Обработка выбросов

Преобразование функций: степенное преобразование
Мы попробовали несколько преобразований и обнаружили, что метод степенного преобразования способен сделать наши данные наиболее нормально распределенными.

Модель машинного обучения: RandomForestClassifier (лучшая модель)

Нас интересуют значения Recall и ROC-AUC. Мы используем отзыв, потому что стремимся поймать как можно больше потенциальных клиентов, которые уйдут, поэтому нам нужно свести к минимуму количество предположений, когда клиенты уходят, хотя на самом деле это не так.

Что, если мы используем PyCaret?

Сравнить модели

Если мы используем настройку по умолчанию, лучшей полученной моделью будет Light Gradient Boosting Machine (LGBM). Однако метрики, на которые мы ориентируемся при выборе лучшей модели, — это ROC-AUC и Recall. Под LGBM есть Extreme Gradient Boosting (XGBoost) с более высокими ROC-AUC и Recall, что больше подходит для установленных метрик.

Построение модели

Высокий показатель ROC-AUC означает, что модель способна различать положительные и отрицательные классы.

Наша оценка ROC-AUC для классов 0 и 1 одинакова в 0,5‹0,96‹1, поэтому существует высокая вероятность того, что модель сможет классифицировать, отличая положительные значения класса от отрицательных. Это связано с тем, что классификатор может обнаруживать большее количество истинных положительных результатов и истинно отрицательных результатов, чем ложно отрицательных результатов и ложно положительных результатов. .

Мы можем видеть более четко, используя матрицу путаницы, чтобы различать истинные положительные результаты и ложноотрицательные результаты.

Что касается важности функции, мы также обнаружили различия в нескольких местах. Во-первых, наиболее важной функцией является Служба владения. Срок пребывания в должности также оказался важной характеристикой некоторых моделей, которые я опробовал во время финального проекта. Однако разница заключается во втором и последующих признаках.

Использование PyCaret позволяет очень легко определить наиболее подходящую модель для использования и очень эффективно, поскольку не требует много строк кода.

Ссылка:

[1] Средний показатель оттока потребительских товаров и розничной торговли в сегменте B2C составляет 9%, при этом верхний квартиль составляет 12,6%, а нижний квартиль составляет 4,83%.