Машинное обучение — это сейчас большой тренд, это ажиотаж и, возможно, его переоценивают? На самом деле, машинное обучение — это очень хорошая техника, которую можно использовать для решения очень большого количества задач. Я считаю, что успех и большая работа, которую социальные сети и электронная коммерция проделывают в «предсказании» шаблонов и очень точном предоставлении рекомендаций, возлагают на них большие надежды.

С более практической точки зрения, машинное обучение — это отличная техника для выполнения некоторых задач, она не волшебна, это очень хорошая техника, если ее правильно применять и использовать, как и все остальное.

Машинное обучение — это инструмент для решения проблем, поэтому самое главное — точно понять, в чем проблема. Мы можем разделить на четыре большие группы задач:

  • Классификация, рынок идет вверх или вниз, дефолт клиентов или нет.
  • Регрессия применяется, когда есть непрерывный выпуск, например, какой будет инфляция в следующем году, насколько вырастет зарплата в следующем году.
  • Кластеризация применяется для понимания характеристик группы, является ли инвестор консервативным или агрессивным. Каковы характеристики группы, которая имеет вероятность сэкономить более 10 тысяч долларов в год; и
  • Ассоциация, это работа, которую выполняют социальные сети, такие как YouTube, Instagram, Netflix и т. Д., Делая предложения о том, что вам может понравиться. Итак, машинное обучение — это инструмент для решения некоторых проблем, и для этого мы должны понимать именно ту проблему, которая перед нами стоит.

Я хотел бы поделиться проектом, выполненным в классе машинного обучения в NOVA-IMS, где мы применили некоторые методы регрессии, такие как линейная регрессия и дерево решений. Цель проекта состоит в разработке решения для прогнозной аналитики данных для французской страховой компании в соответствии с методологией CRISP-DM (где мы могли бы сказать, что наиболее важной частью является понимание бизнеса или точное понимание проблемы). Разработанная модель направлена ​​на прогнозирование количества требований, которые каждый страхователь будет иметь в следующем году. Имея эту информацию, страховая компания может скорректировать свою модель ценообразования для премий следующего года в соответствии с прогнозируемым количеством претензий.

Все упражнения доступны по ссылке ниже:

После применения всех методов и процессов методологии CRISP-DM, прохождения через понимание данных, подготовку данных, моделирование и оценку для линейной регрессии и дерева решений. Нам удалось подогнать результаты:

Линейная регрессия:

Несмотря на то, что результаты, полученные моделью на обучающей выборке, аналогичны результатам, полученным на тестовой выборке, все полученные показатели показывают нам, что предсказательную силу модели можно считать слабой. Одной из возможных причин таких результатов является тот факт, что первоначальный набор данных чрезвычайно несбалансирован (намного больше наблюдений, сообщающих об отсутствии претензий, чем о превышении нуля).

Древо решений:

Подобно тому, что наблюдалось с использованием модели линейной регрессии, для модели дерева решений результаты, полученные на обучающем наборе, аналогичны результатам, полученным с использованием тестового набора. Хотя, опять же, все полученные показатели показывают нам, что предсказательную силу модели можно считать слабой.

Первоначально можно было сделать вывод, что модель дерева решений должна давать более надежные результаты. Хотя, это было не так. Одной из возможных причин этого является тот факт, что исходный набор данных чрезвычайно несбалансирован (намного больше наблюдений, сообщающих об отсутствии претензий, чем о превышении нуля). Кроме того, большее количество наблюдений, то есть больший набор данных, может привести к лучшим результатам.

В этом упражнении мы можем увидеть некоторые проблемы, связанные с применением машинного обучения. Это не работает как волшебство и способно подойти и решить все проблемы. Иногда хорошее понимание данных и подготовка данных могут сказать больше, чем сама модель. Дело в том, что машинное обучение — это отличная техника, но для ее правильного использования нужна тяжелая работа и знания, для каждой задачи нужен определенный инструмент. Если мы думаем в реальной жизни, мы должны знать, что этот инструмент будет использоваться многими людьми, и, как правило, лучше сделать его простым. Делай просто!