Из сорняков, часть I

Дэн Ариели, профессор психологии и поведенческой экономики в Университете Дьюка, однажды сказал:

«Большие данные похожи на секс подростков: все говорят об этом, никто толком не знает, как это делать, все думают, что это делают все остальные, поэтому все утверждают, что они это делают».

Мы утверждаем, что то же самое верно и в отношении модных словечек последнего поколения. Вам знакомы искусственный интеллект (AI), машинное обучение (ML) или обработка естественного языка (NLP)?

В начале 2019 года мы начинаем серию статей, которые прольют свет на эти и другие связанные с ними термины, которые могут показаться запутанными, а их объяснения - немного ошеломляющими.

Углубленный обзор всех ветвей ИИ и его зависимости от машинных алгоритмов выходит за рамки этой серии статей. В первой установке из этой серии мы сосредоточимся на машинном обучении. Машинное обучение - это отрасль ИИ, которая автоматизирует построение аналитических моделей, где системы могут учиться на данных и выявлять закономерности.

Наши две главные цели:

  1. Демистифицируйте значение машинного обучения
  2. Продемонстрируйте его актуальность и практическое применение для понимания потребителей.

Начнем с бизнес-кейса. Как специалист по изучению интересов потребителей или исследованию рынка, одна из ваших целей на год может заключаться в улучшении сегментации потребителей - практики разделения клиентской базы на группы на основе некоторых общих характеристик.

Как вы это делаете?

Существует четыре основных типа сегментации потребителей:

  1. Демографические: группы на основе таких переменных, как возраст, пол, сексуальная ориентация, размер семьи, семейное положение, этническая принадлежность и т. д .;
  2. Поведенческие: группы поведения, такие как предпочтения в отношении продуктов, модели и частота покупок, типы покупок и потребление;
  3. Психографические: психологическое профилирование и понимание потребителей, включая их образ жизни, ценности, мотивацию, интересы и мнения;
  4. Географический: географическое разделение страны, штата, города и т. д.

Возможны два метода анализа. Первый имеет дело с четко определенными переменными. Из четырех типов сегментации, как правило, четко определяются демографические и географические сегменты.

Например, в США довольно легко организовать отдельную группу мужчин. Сравнение и сопоставление по полу, этническим группам или возрастным группам становится простым.

Однако часто переменные не так четко определены. Если спросить вашего потенциального покупателя: «По шкале от 1 до 10, какова вероятность того, что вы это купите?», Скорее всего, вы получите что-то, больше похожее на диаграмму рассеяния, чем на чистую организованную группу ответов.

Поведенческие и психографические сегменты имеют тенденцию быть немного менее определенными, потому что данные обычно располагаются по шкале. Вы когда-нибудь использовали показатель NPS?

Проблема, которая возникает в статистике, заключается в том, как сегментировать эти типы точек данных?

Один из способов сделать это - ввести свой собственный «отрезок» от данных (например, низкий, средний, высокий). Проблема с этим подходом заключается в том, что вы просто спроектировали свои собственные предположения о том, как данные должны вести себя, а не анализировать фактическое поведение, особенно в отношении других переменных.

Отлично, и что теперь?

А вот и машинное обучение! В этом случае мы использовали бы то, что называется обучение без учителя. Одним из видов обучения без учителя является кластеризация k-средних. Предпосылкой для этого является проведение итеративного процесса группирования широко распространенных точек данных в несколько кластеров, которые являются наиболее организованными и точными.

Для тех технически подкованных людей k-means начинается с определения кластеров точек данных сравнимой пространственной протяженности (т.е.они расположены близко друг к другу и могут быть заключены в теоретическую прямоугольную форму). Центр этого прямоугольника, пересечение двух диагоналей и есть то, что называется центроидом.

После определения этих центроидов алгоритм повторяется и повторяется для выполнения двух вещей:

  1. Назначьте каждую точку данных ближайшему соответствующему центроиду;
  2. Для каждого центроида вычислите среднее значение всех принадлежащих ему точек.

Цель этого итеративного процесса вычислений - сгруппировать различные точки данных в наиболее точные «кластеры» или «сегменты», доступные в наборе данных. Обратите внимание, что мы ничего не сказали о предположениях относительно того, кем были эти группы потребителей.

Результаты, которые мы получаем, относятся к чисто организованным группам потребителей. Но они не организованы вокруг четко определенной переменной, например возраста или пола. Они построены вокруг того, как они индивидуально ответили на ваши вопросы.

Если вы собрали данные правильного типа, вы можете взять сегмент потребителей, сгруппированных вместе на основе их предпочтений или мнений, и затем просмотреть полученную разбивку демографических переменных, отнесенных к этой группе.

Вы можете использовать этот недавно определенный сегмент, созданный с помощью машинного обучения, для нацеливания на потребителей и обмена сообщениями гораздо эффективнее, чем использование только одной определенной переменной.

Все типы организаций должны искать способы более глубокого и глубокого понимания своих потребителей, помимо простых демографических переменных.

Развертывание продуманной исследовательской стратегии в сочетании с мощью некоторых из вышеперечисленных методов машинного обучения может привести к впечатляющим результатам.

Теперь есть платформы, которые могут выполнять этот анализ простым нажатием кнопки. Спросите нас, и мы вам все расскажем!