Отказ от ответственности: ничто в этом блоге не связано с повседневной работой автора. Контент не является аффилированным лицом и не спонсируется какими-либо компаниями. Я не работаю в Linkedin.

В Linkedin, я полагаю, многие из нас получали такие запросы «пожалуйста, добавьте меня в свою профессиональную сеть»:

  • названия должностей, такие как «Технический директор» или «Технический консультант»
  • фото в профиле все азиатские дамы, большинство из них отретушированы фотошопом
  • они работают в сфере высоких технологий; вместо MAANG компаний их компании, как правило, хорошо известны в каждой промышленной категории.
  • они окончили несколько ведущих университетов, в основном в Китае
  • не так много недавней активности на Linkedin

и несколько других особенностей, которые, я надеюсь, все заметят. Я считаю, что команда Linkedin по обнаружению мошенничества очень усердно работала, но такое мошенничество с учетными записями и спам-атаки должны быть делом опытного злоумышленника, потому что каждая функция тщательно продумана, чтобы сбивать с толку как по отдельности, так и в сочетании. Можем ли мы, как пользователи Linkedin, помочь Linkedin в борьбе с таким мошенничеством? Мы можем использовать его как пример надежной разработки функций.

Особенности, которые кажутся такими очевидными, могут быть не очень хорошими. Это тяжелый урок кибербезопасности, потому что такие функции не обеспечивают его надежность для классификации в динамической среде. Например, можно развернуть такую ​​функцию, как «если в названии должности есть Технический директор», чтобы обнаруживать такие учетные записи мошенников. Несмотря на процент ложных срабатываний модели, злоумышленники могут просто отслеживать эффективность мошенничества, чтобы определить, что «Технический директор» больше не является хорошим названием и может быстро измениться на другое. Такой дрейф функций в результате изменения политики атаки может втянуть команду защиты в грязную яму.

То же самое верно и для других функций, перечисленных выше. Хотим ли мы создать модель глубокого обучения, чтобы определить, было ли изображение профиля обработано в Photoshop? Нет, GAN может использоваться злоумышленниками для создания новых портретных изображений, которые никто не сможет обнаружить. Хотим ли мы собрать все хорошие компании в каждой промышленной категории? Нет, злоумышленники могут украсть названия компаний из законных резюме. Мы намерены закрыть все китайские университеты? Университеты не виноваты. Хотим ли мы проверить недавнюю активность Linkedin? Нет, злоумышленники могут присоединяться к многочисленным группам Linkedin и рассылать им спам, создавая более серьезную проблему, чем мошенничество с аккаунтом. Итак, какие у нас есть варианты?

В моем предыдущем посте о конструировании функций я процитировал комментарий:

«Только алгоритмы заботятся о том, что правильно, а что нет, безопасность зависит от стоимости».

Один из подходов к разработке надежных функций для враждебных сред заключается в повышении стоимости атаки, чтобы функции было либо трудно изменить, либо невозможно изменить. Давайте подумаем как злоумышленник и выясним, «что усложняет мою работу»: больше инженерной работы, более длительный цикл окупаемости, данные, к которым я не могу получить доступ, и так далее.

Шаблон URL-адреса профиля, например, обеспечивает небольшую функцию поднятия планки. Идентификатор профиля «liu-y-44b114233» показан на снимке экрана в качестве идентификатора по умолчанию, сгенерированного встроенной системой, поэтому «При использовании идентификатора по умолчанию» в качестве функции может заставить злоумышленников кодировать свои собственные идентификаторы профиля, что добавляет к стоимость атаки.

Другим примером является недавнее подключение по сравнению с пожизненным подключением, которое предполагает, что недавний всплеск подключения является более мошенническим. Поскольку мошенничество с учетными записями и спам-бизнес предпочитает быстрый оборот, злоумышленники сосредотачиваются на краткосрочной выгоде. Такие функции, как «новый шаблон пользователя», «частота запросов на подключение», «скорость одобрения подключения» и «схемы подключения с течением времени», могут замедлить атаку и отпугнуть злоумышленников.

Использование данных, к которым у злоумышленников нет доступа, может генерировать новые идеи. Например, злоумышленники не могут видеть общий шаблон пользователя Linkedin, но Linkedin может через глобальный граф подключений. Злоумышленники ищут больше подключений, поэтому они начинают с людей, которые всегда одобряют новые подключения по какой-либо причине, так и в кибербезопасности машины с незакрытыми уязвимостями могут быть легко заражены новым вредоносным ПО. Модель может использовать эту функцию взаимодействия «пользователь-элемент» из графа для классификации, помечая пользователей «легко утвердить» с помощью исторических данных обнаружения мошенничества. Та же концепция может быть применена к отпечатку пальца пользователя по сравнению с отпечатком запрашивающего соединения: все ли соединения запроса используют одни и те же шаблоны профилей? Поверьте мне, функции графических данных могут значительно поднять планку атаки.

Безусловно, разработка надежных признаков — это широкая тема со многими аспектами борьбы с «дрейфом» данных, в том числе разработка признаков, сезонный эффект, черный лебедь, состязательная атака и так далее. Кроме того, обнаружение мошенничества не может быть выполнено с помощью одной модели машинного обучения. Это требует системы данных, функции, модели и операции. Помимо отличной разработки функций и моделей, система должна собирать отзывы пользователей о модели, такие как «игнорировать, потому что я думаю, что это мошенничество», и улучшать рабочий процесс, такой как прогнозирование мошенничества с указанием причин.

Первоначально опубликовано на https://toooold.com 3 августа 2022 г.