Почему обнаружение мошенничества в автостраховании:мошенничество в страховании происходит, когда клиент пытается получить прибыль, используя условия договора страхования.
Мошенничество с автострахованием происходит, когда происходит столкновение транспортного средства или угон транспортного средства.
В наши дни расследование одного случая занимает очень много времени, а выявление целого ряда мошенников становится очень сложным.
За выявление мошеннических действий с помощью набора данных будем очень признательны отраслевым специалистам.
Цель проекта
заключается в том, чтобы найти клиента, сообщенного о мошенничестве в автостраховании, по его данным. Страховое мошенничество — огромная проблема в отрасли. Трудно выявить заявления о мошенничестве. Машинное обучение имеет уникальную возможность помочь отрасли автострахования решить эту проблему. В соответствии с спецификой отрасли, выявление мошеннического отчета о страховом возмещении по автострахованию является очень сложной задачей на основе данных о клиентах.
Я построил модель с 90-процентной точностью, чтобы прогнозировать мошенничество с автострахованием клиентов на основе ее данных.
Я попробовал четыре разные модели, чтобы найти максимальную точность, и в итоге нашел лучшую модель машинного обучения.
Обзор набора данных
Набор данных получен из: https://github.com/dsrscientist/Data-Science-ML-Capstone-Projects/blob/master/Automobile_insurance_fraud.csv
· Набор данных, содержащий 10000 строк и 40 столбцов.
· Набор данных, содержащий 19 числовых столбцов и 21 столбец типов объектов.
Исследовательский анализ данных
Сообщение о мошенничестве
Было 247 случаев мошенничества и 753 случая мошенничества. 24,7% данных были мошенничеством, а 75,3% не были мошенническими заявлениями.
Парный график для проверки общего набора данных
1. Inquiry_claim с total_claim_amount показывает линейный прирост соответственно.
2. Аналогично, property_claim и претензия на транспортное средство показывают также линейный прирост соответственно.
3. Vehicle_claim и property_claim показывают линейный рост по отношению друг к другу.
4. Возраст и месяц клиента прямо пропорциональны друг другу.
Остальные графики не показывают важных деталей.
Сюжет для скрипки
1. month_as_customer имеет плотность в диапазоне от 0 до 500, но большая часть клиентов находится в диапазоне от 0 до 300, примерно как на графике.
2. Возраст с плотностью в диапазоне от 20 до 70, но большая часть клиентов находится в диапазоне от 20 до 55 примерно в соответствии с графиком.
3. policy_deductable разделены на 3 части плотности с разным диапазоном, как показано на графике выше.
4. policy_annual_premium его диапазон плотности составляет примерно от 250 до 2000.
5. Прирост капитала. Согласно графику, большинство людей не получили никакой прибыли, но несколько человек получили прибыль в диапазоне от 20 000 до 100 000 прибл.
6. Потери капитала. Согласно графику, большинство людей не понесли никаких убытков, но несколько человек потеряли в диапазоне от -20000 до 600000 прибл.
7. Происшествие_час_дня показывает общий рисунок плотности.
8. номера задействованных транспортных средств разделены на две части 1 и 3 согласно графику.
9. телесные_травмы разделены на три части, примерно от 0 до 2, как показано на графике.
10. обратите внимание, что он разделен на четыре части, которые примерно равны от 0 до 3, как показано на графике.
11. total_claim_amount Сумма требований большинства людей находится в диапазоне плотности от 20000 до 1000000 согласно графику.
12. Ущерб_убыток. Сумма претензии большинства людей находится в диапазоне плотности от 0 до 20000, как показано на графике.
13. property_claim сумма требований большинства людей находится в диапазоне плотности от 0 до 20000 согласно графику.
14. Vehicle_claim большая часть суммы претензии находится в диапазоне от 20000 до 80000.
15. auto_year, policy_bind_month и policy_bind_year показывают диапазоны нормальной плотности согласно графику.
16. Месяц даты инцидента, согласно кривой плотности, большая часть инцидентов приходится на период с января по февраль.
Выбросы
1. age: набор данных столбца age с незначительным количеством выбросов.
2. policy_annual_premimum имеет выбросы в обоих критериях с сообщениями о мошенничестве да и нет.
3. totol _claim_amount имеет выбросы в наборе данных о мошенничестве.
4. property_claim имеет выбросы по обоим критериям.
5. инцидент_дата_месяц имеет выбросы только в наборе данных за один месяц.
Асимметрия в наборе данных
Месяц, в котором клиент, возраст, policy_deductable, прирост капитала, количество вовлеченных транспортных средств, иск о возмещении ущерба, иск о собственности и месяц даты происшествия показывают правую асимметрию по отношению к набору данных в оставшееся время дня происшествия, убыток капитала, общая сумма иска, иск транспортного средства, автомобильный год. , месяц привязки политики показывает асимметрию влево по отношению к набору данных.
Конвейеры предварительной обработки
Используется кодировщик меток для целевой переменной и порядковый кодировщик для создания аналогичной зависимой переменной.
Для удаления выбросов мы использовали метод Zscore, поскольку он показывает только 2% потерь данных.
Корреляция набора данных
Метод Power Transformer хорошо работает с этим набором данных для устранения асимметрии. Кроме того, набор данных имеет очень высокий VIF в Total_claims_amount, поэтому мы удаляем его для лучшего прогнозирования модели.
Мы использовали SMOTE для балансировки целевой переменной.
Стандартный масштабатор используется здесь для создания подобных типов переменных.
Создание моделей машинного обучения
· Разбить данные на обучающие и тестовые
И зависимая переменная, и независимая переменная были разделены на обучающие и тестовые данные (70% обучающих и 30% тестовых).
· В этом проекте для нахождения наилучшего показателя точности использовались четыре различных типа классификаторов моделей:
- Логистическая регрессия
- Гауссов НБ
- Классификатор опорных векторов
- АдаBoostClassifier
Логистическая регрессия модели 1
Модель 2 GaussianNB
Классификатор опорных векторов модели 3
Модель 4 AdaBoostClassifier
Оценка перекрестной проверки каждого алгоритма:
Логистическая регрессия
86.08108108108108
GaussianNB
85.17697298185102
ПоддержкаВекторКлассификатор
57.56756756756756
AdaboostClassifier
86.51350907448467
Настройка гиперпараметров
ROC-кривая AUC
ЗАКЛЮЧИТЕЛЬНЫЕ ЗАМЕЧАНИЯ
В рамках этого проекта была построена модель, которая может обнаруживать клиентов-мошенников в автостраховании с помощью данных о клиентах. Потому что в наши дни расследование одного случая занимает очень много времени, а выявление целого ряда мошенников становится очень сложным.
Для выявления мошеннических через набор данных будем очень признательны для конкретной отрасли.
Как упоминалось выше, в этом проекте использовались четыре разных классификатора, но лучшей моделью для выбранного набора данных является модель AdaBoostClassifier.
Модель может предсказать с точностью 90,09 %, является ли клиент мошенником или нет.
Полный текст блога можно прочитать по адресу: https://github.com/arjun0200/Evaluation_Projects/tree/main/Blog.
Найдите ссылку на GitHub для модели: - Ссылка на GitHub:
Спасибо за прочтение!
Пожалуйста, не стесняйтесь делиться своими мыслями или мнениями в комментариях.
Подписывайтесь на меня на Medium, Linkedin.