Модель машинного обучения для обнаружения мошенничества в автостраховании

Почему обнаружение мошенничества в автостраховании:мошенничество в страховании происходит, когда клиент пытается получить прибыль, используя условия договора страхования.

Мошенничество с автострахованием происходит, когда происходит столкновение транспортного средства или угон транспортного средства.

В наши дни расследование одного случая занимает очень много времени, а выявление целого ряда мошенников становится очень сложным.

За выявление мошеннических действий с помощью набора данных будем очень признательны отраслевым специалистам.

Цель проекта

заключается в том, чтобы найти клиента, сообщенного о мошенничестве в автостраховании, по его данным. Страховое мошенничество — огромная проблема в отрасли. Трудно выявить заявления о мошенничестве. Машинное обучение имеет уникальную возможность помочь отрасли автострахования решить эту проблему. В соответствии с спецификой отрасли, выявление мошеннического отчета о страховом возмещении по автострахованию является очень сложной задачей на основе данных о клиентах.

Я построил модель с 90-процентной точностью, чтобы прогнозировать мошенничество с автострахованием клиентов на основе ее данных.

Я попробовал четыре разные модели, чтобы найти максимальную точность, и в итоге нашел лучшую модель машинного обучения.

Обзор набора данных

Набор данных получен из: https://github.com/dsrscientist/Data-Science-ML-Capstone-Projects/blob/master/Automobile_insurance_fraud.csv

· Набор данных, содержащий 10000 строк и 40 столбцов.

· Набор данных, содержащий 19 числовых столбцов и 21 столбец типов объектов.

Исследовательский анализ данных

Сообщение о мошенничестве

Было 247 случаев мошенничества и 753 случая мошенничества. 24,7% данных были мошенничеством, а 75,3% не были мошенническими заявлениями.

Парный график для проверки общего набора данных

1. Inquiry_claim с total_claim_amount показывает линейный прирост соответственно.

2. Аналогично, property_claim и претензия на транспортное средство показывают также линейный прирост соответственно.

3. Vehicle_claim и property_claim показывают линейный рост по отношению друг к другу.

4. Возраст и месяц клиента прямо пропорциональны друг другу.

Остальные графики не показывают важных деталей.

Сюжет для скрипки

1. month_as_customer имеет плотность в диапазоне от 0 до 500, но большая часть клиентов находится в диапазоне от 0 до 300, примерно как на графике.

2. Возраст с плотностью в диапазоне от 20 до 70, но большая часть клиентов находится в диапазоне от 20 до 55 примерно в соответствии с графиком.

3. policy_deductable разделены на 3 части плотности с разным диапазоном, как показано на графике выше.

4. policy_annual_premium его диапазон плотности составляет примерно от 250 до 2000.

5. Прирост капитала. Согласно графику, большинство людей не получили никакой прибыли, но несколько человек получили прибыль в диапазоне от 20 000 до 100 000 прибл.

6. Потери капитала. Согласно графику, большинство людей не понесли никаких убытков, но несколько человек потеряли в диапазоне от -20000 до 600000 прибл.

7. Происшествие_час_дня показывает общий рисунок плотности.

8. номера задействованных транспортных средств разделены на две части 1 и 3 согласно графику.

9. телесные_травмы разделены на три части, примерно от 0 до 2, как показано на графике.

10. обратите внимание, что он разделен на четыре части, которые примерно равны от 0 до 3, как показано на графике.

11. total_claim_amount Сумма требований большинства людей находится в диапазоне плотности от 20000 до 1000000 согласно графику.

12. Ущерб_убыток. Сумма претензии большинства людей находится в диапазоне плотности от 0 до 20000, как показано на графике.

13. property_claim сумма требований большинства людей находится в диапазоне плотности от 0 до 20000 согласно графику.

14. Vehicle_claim большая часть суммы претензии находится в диапазоне от 20000 до 80000.

15. auto_year, policy_bind_month и policy_bind_year показывают диапазоны нормальной плотности согласно графику.

16. Месяц даты инцидента, согласно кривой плотности, большая часть инцидентов приходится на период с января по февраль.

Выбросы

1. age: набор данных столбца age с незначительным количеством выбросов.

2. policy_annual_premimum имеет выбросы в обоих критериях с сообщениями о мошенничестве да и нет.

3. totol _claim_amount имеет выбросы в наборе данных о мошенничестве.

4. property_claim имеет выбросы по обоим критериям.

5. инцидент_дата_месяц имеет выбросы только в наборе данных за один месяц.

Асимметрия в наборе данных

Месяц, в котором клиент, возраст, policy_deductable, прирост капитала, количество вовлеченных транспортных средств, иск о возмещении ущерба, иск о собственности и месяц даты происшествия показывают правую асимметрию по отношению к набору данных в оставшееся время дня происшествия, убыток капитала, общая сумма иска, иск транспортного средства, автомобильный год. , месяц привязки политики показывает асимметрию влево по отношению к набору данных.

Конвейеры предварительной обработки

Используется кодировщик меток для целевой переменной и порядковый кодировщик для создания аналогичной зависимой переменной.

Для удаления выбросов мы использовали метод Zscore, поскольку он показывает только 2% потерь данных.

Корреляция набора данных

Метод Power Transformer хорошо работает с этим набором данных для устранения асимметрии. Кроме того, набор данных имеет очень высокий VIF в Total_claims_amount, поэтому мы удаляем его для лучшего прогнозирования модели.

Мы использовали SMOTE для балансировки целевой переменной.

Стандартный масштабатор используется здесь для создания подобных типов переменных.

Создание моделей машинного обучения

· Разбить данные на обучающие и тестовые

И зависимая переменная, и независимая переменная были разделены на обучающие и тестовые данные (70% обучающих и 30% тестовых).

· В этом проекте для нахождения наилучшего показателя точности использовались четыре различных типа классификаторов моделей:

- Логистическая регрессия

- Гауссов НБ

- Классификатор опорных векторов

АдаBoostClassifier

Логистическая регрессия модели 1

Модель 2 GaussianNB

Классификатор опорных векторов модели 3

Модель 4 AdaBoostClassifier

Оценка перекрестной проверки каждого алгоритма:

Логистическая регрессия

86.08108108108108

GaussianNB

85.17697298185102

ПоддержкаВекторКлассификатор

57.56756756756756

AdaboostClassifier

86.51350907448467

Настройка гиперпараметров

ROC-кривая AUC

ЗАКЛЮЧИТЕЛЬНЫЕ ЗАМЕЧАНИЯ

В рамках этого проекта была построена модель, которая может обнаруживать клиентов-мошенников в автостраховании с помощью данных о клиентах. Потому что в наши дни расследование одного случая занимает очень много времени, а выявление целого ряда мошенников становится очень сложным.

Для выявления мошеннических через набор данных будем очень признательны для конкретной отрасли.

Как упоминалось выше, в этом проекте использовались четыре разных классификатора, но лучшей моделью для выбранного набора данных является модель AdaBoostClassifier.

Модель может предсказать с точностью 90,09 %, является ли клиент мошенником или нет.

Полный текст блога можно прочитать по адресу: https://github.com/arjun0200/Evaluation_Projects/tree/main/Blog.

Найдите ссылку на GitHub для модели: - Ссылка на GitHub:

Evaluation_Projects/Insurance_Claim_Fraud_Detection_final.ipynb at main ·…
Внесите свой вклад в разработку arjun0200/Evaluation_Projects, создав учетную запись на GitHub.github.com

Спасибо за прочтение!

Пожалуйста, не стесняйтесь делиться своими мыслями или мнениями в комментариях.

Подписывайтесь на меня на Medium, Linkedin.