Чтобы понять масштаб проблем, которые предстоит решить с помощью обнаружения аномалий, просто взгляните на статистику. Например, к 2016 году убытки банковской отрасли достигли 2,2 миллиарда долларов, согласно последним данным Американской ассоциации банкиров (ABA), в результате мошеннических действий. Кроме того, общая стоимость мошеннических транзакций, проведенных с использованием карт, выпущенных в рамках SEPA и приобретенных по всему миру, составила 1,8 миллиарда евро в 2016 году. В том же году 3 миллиарда учетных записей Yahoo были взломаны в результате одного из крупнейших взломов всех времен.

Теперь давайте поговорим о том, что такое обнаружение аномалий как концепция. Аномалия — это событие, которое произошло неожиданно для обычного течения вещей. Следовательно, обнаружение аномалий с помощью машинного обучения — это процесс выявления необычных закономерностей, событий или наблюдений в данных, которые достаточно отличаются от всего объема информации, чтобы вызывать подозрения.

Помимо предотвращения мошенничества, обнаружение аномалий широко применимо в различных областях: медицине, производстве, дорожной системе. В частности, в медицине он используется для выявления поврежденных или вредоносных клеток, в производстве может служить для выявления структурных дефектов, корней сбоев в работе оборудования и т. д.

Мониторинг состояния и профилактическое обслуживание

Любая машина или устройство имеет вероятный срок службы и определенные показатели работоспособности с момента изготовления. Обобщив параметры многих подобных устройств в работе, можно сделать вывод, что когда-нибудь машина сломается или произойдет снижение ее показателей работоспособности, достаточно значительное, чтобы заставить ее работать плохо. Для предотвращения неожиданного отключения или сбоя специалисты по машинному обучению предлагают такую ​​методику, как профилактическое обслуживание, в которой в качестве одного из инструментов используется обнаружение аномалий.

Когда была изобретена Индустрия 4.0, появился новый способ обеспечения доступности машин. Из-за того, что около 82% компаний сталкиваются с незапланированными простоями, а учитывая стоимость таких инцидентов — около 260 000 долларов в час простоя машины, становится ясно, что эту проблему нужно как-то решать. Кроме того, около 64 % незапланированных простоев связаны с отказом оборудования (ненадлежащее техническое обслуживание, отсутствие отслеживания состояния).

Область применения обнаружения аномалий для мониторинга состояния и профилактического обслуживания довольно широка:

  • Автомобильная промышленность
    В этой отрасли очень важно отслеживать состояние сварочных аппаратов, шпинделей фрезерных станков, лазерных сверлильных станков и т. д. Более того, решения машинного обучения в сочетании с IoT для автомобильной промышленности помогают выявлять трещины, проблемы со смазкой, несоосность собранных деталей и т. д. в режиме реального времени.
  • Сталелитейная промышленность
    Здесь мониторинг состояния применяется для наблюдения за состоянием станов холодной прокатки (особенно важно для качества стали). Своевременное выявление дефектов прокатных станов позволяет проводить корректирующие действия и минимизировать негативное воздействие.
  • Нефть и газ
    Нефть и газ — не последняя отрасль, в которой применяется профилактическое обслуживание, но здесь оно используется для мониторинга морских буровых работ в режиме реального времени, в том числе в сочетании с Интернетом вещей. Потенциальное критическое состояние оборудования может быть определено после удаленной обработки данных.

Подробнее читайте в статье Как искусственный интеллект и машинное обучение меняют обрабатывающую промышленность

Хакерские атаки и обнаружение мошенничества

Наиболее популярной областью использования обнаружения аномалий являются любые мошеннические действия, связанные с Интернетом или банковскими операциями. С 2015 года защита банковских карт от мошенничества усилилась с появлением технологии чиповых карт, запрашивающих PIN-код каждый раз, когда запрашивается транзакция. Тем не менее, по прогнозам, к 2020 году мошенничество с кредитными картами в Интернете достигнет 32 миллиардов долларов.

Начиная с 2016 года и до настоящего времени были многочисленные случаи кибератак, угрожающих интернет-бизнесу и коммерческим сайтам. Даже крупные корпорации, такие как Yahoo и Uber, пострадали от онлайн-взломов, когда было взломано около 3 миллиардов учетных записей Yahoo, а у Uber была украдена информация о более чем 57 миллионах пассажиров и водителей. Во всем мире вирус Wannacry заразил более 350 000 компьютеров примерно в 150 странах и привел к затратам в размере 4 миллиардов долларов.

Когда дело доходит до обнаружения мошенничества с кредитными картами или любых нарушений системы кибербезопасности, эксперты по машинному обучению могут создавать интеллектуальные модели машинного обучения, классифицируя транзакции на законные или мошеннические в соответствии с деталями транзакции, например. продавец, сумма, место, время и другие.

Наш алгоритм обнаружения мошенничества для транзакций электронной коммерции

При обнаружении аномалий с помощью машинного обучения мы можем пойти двумя путями: контролируемым или неконтролируемым. Контролируемый означает работу с данными, которые были заранее помечены, например, если у человека есть набор нормальных и аномальных журналов, но эти журналы не были помечены как таковые, он должен вручную получить метку «нормальный» или «аномальный» для каждого из них. их, чтобы алгоритм мог различать их. Неконтролируемый метод не требует маркировки — специальные алгоритмы будут предполагать, какие данные являются вредоносными, а какие обычно основаны на их внутреннем механизме, например, большинство интернет-соединений являются нормальными и лишь небольшое количество мошенническими, поэтому появляются более редкие типы подключений. быть аномальным.

Наш путь состоял в том, чтобы использовать обнаружение аномалий для выявления мошеннических транзакций для финансовой компании, предлагающей различные продукты и услуги, которые можно оплатить с помощью мобильных денег (Airtel Money, MTN Mobile Money), банковской карты (Visa Card, Master Card), кошелька. и в кредит (Pay Later). Проблема заключалась в том, что незаконные транзакции через компанию происходили редко, и в качестве исходных данных у нас были данные о 150 000 транзакций, совершенных в течение нескольких месяцев.

Как обычно, каждый проект машинного обучения включает в себя 3 этапа:

  • Предварительная обработка (сбор и подготовка данных),
  • Обработка (обучение модели) и
  • Тонкая настройка/переобучение модели.

Когда проект был создан, мы столкнулись с проблемой несбалансированного набора данных, то есть когда набор данных имеет значительную разницу между двумя классами наблюдений в нем. Несбалансированные данные можно обрабатывать примерно 9 методами, 3 из которых наиболее популярны: избыточная выборка, недостаточная выборка и SMOTE. Опробовав их на практике, мы пришли к выводу, что SMOTE лучше всего подходит для поставленной задачи.

Процесс разработки

Мошенничества с кредитными картами может быть всего около 0,1% на 1000 транзакций в целом, что делает процесс обучения модели крайне несбалансированным. Мы решили эту проблему, используя недостаточную выборку (случайное удаление обычных транзакций, чтобы минимизировать их количество по сравнению с мошенническими) и избыточную выборку (дублирование мошеннических выборок, чтобы сделать их много и сбалансировать число с обычными), а также синтетическую выборку или SMOTE. (автоматическая генерация синтетических выборок данных на основе существующих). Последний способ оказался наиболее эффективным, так как увеличил точность нашего алгоритма еще на 5%, что в итоге составило 85%.

После этапа подготовки данных, означающего, что данные были сбалансированы, следующим шагом было опробование различных подходов к классификации. Контролируемые методы заключались в том, чтобы классифицировать данные по одному из классов: мошеннические или обычные транзакции с помощью логистической регрессии, KNN, SVM и классификатора дерева решений. Среди алгоритмов обучения без учителя мы использовали SVM одного класса, лес изоляции, подгонку и фактор локального выброса среди контролируемых, чтобы классифицировать все транзакции по двум классам без маркировки. Кроме того, использовался подход нейронной сети с контролируемым и неконтролируемым подходами: LSTM и MLP (контролируемый) и автокодировщик (AE), ограниченная машина Больцмана (RBM) и генеративно-состязательные сети (GAN).

В результате мы развернули модель, которая помогла нашему клиенту автоматически предотвращать мошеннические транзакции с точностью до 85% и блокировать их.

Подробнее… Машинное обучение в финансах

Вывод

Обнаружение аномалий с помощью машинного обучения в основном используется для решения таких проблем, как нарушения кибербезопасности, обнаружение и предотвращение онлайн-мошенничества, профилактическое обслуживание и мониторинг состояния в различных отраслях, включая производство, электронную коммерцию, банковское дело, розничную торговлю, нефть и газ, медицину. Значение обнаружения различных аномалий в регулярном потоке многочисленных операций, будь то транзакции по кредитным картам или устранение проблем в работе устройства, трудно переоценить, особенно когда речь идет о прогнозировании неожиданных аномалий, которые могут быть важными. фактор, влияющий на доход предприятия/бизнеса. Вас интересует Разработка машинного обучения? Не стесняйтесь связаться с нами"!