У меня есть набор из 300 000 записей исторических данных о покупках клиентов. Я начал проект интеллектуального анализа данных SSAS, чтобы выявить лучших клиентов.
Разделение данных: -90% непокупатели -10% покупатели
Я использовал различные алгоритмы SSAS (деревья решений и нейронные сети показали лучший рост) для изучения моих данных.
Цель проекта — определить/оценить клиентов в зависимости от того, кто с наибольшей вероятностью купит продукт.
В настоящее время я использовал все свои записи для этой цели. Такое ощущение, что чего-то не хватает в проекте. Сейчас я читаю две книги о интеллектуальном анализе данных. Оба они говорят о разделении интеллектуального анализа данных на разные наборы; однако ни один из них не объясняет, КАК на самом деле разделить их.
Я считаю, что мне нужно разделить майские записи на 3 набора и повторно запустить алгоритмы ssas.
Основные вопросы:
- Как разделить данные на обучающую, проверочную и тестовую выборки 1.1 Какое соотношение покупателей и непокупателей должно быть в обучающей выборке?
- Как я оцениваю своих клиентов в соответствии с вероятностью покупки продукта и наименее вероятной покупкой продукта.