Привет! Добро пожаловать в мою первую статью в среде. В этой серии постов я резюмирую часть своего прогресса в работе над дополнительным проектом, связанным с выявлением сетей торговли людьми на канадском веб-сайте со списком эскорт-услуг. В этом первом посте я представляю концепцию торговли людьми, а затем представляю Chain Breaker: открытое решение для борьбы с этим преступлением, основанное на данных.

Давайте начнем!

Но что такое торговля людьми?

Протокол Организации Объединенных Наций о торговле людьми определяет торговлю людьми как:

«вербовка, перевозка, передача, укрывательство или получение лиц посредством угрозы силой или ее применения либо других форм принуждения, похищения, мошенничества, обмана, злоупотребления властью или уязвимым положением или предоставление или получение платежей или выгод для получения согласия лица, контролирующего другое лицо, в целях эксплуатации» (статья 3 (а) Протокола ООН о торговле людьми, 2000 г.).

Можно выделить как минимум девять форм торговли людьми, однако я сосредоточусь на одной из ее сторон: сексуальная эксплуатация. Сексуальная эксплуатация определяется как принуждение, обман или принуждение человека к участию в сексуальных действиях. Когда эта форма эксплуатации затрагивает детей, она известна как сексуальная эксплуатация детей. Согласно Глобальному докладу Организации Объединенных Наций о торговле людьми (2020 г.), сексуальная эксплуатация женщин и девочек по-прежнему остается наиболее выявляемой формой торговли людьми в мире. Эта проблема является одной из самых сложных, с которыми сталкиваются правоохранительные органы, поскольку трудно идентифицировать жертв и лиц, противодействующих торговле людьми. Кроме того, это одна из самых быстрорастущих криминальных индустрий в мире и одно из самых серьезных нарушений прав человека на сегодняшний день.

Из-за все более широкого использования интернет-технологий во всем мире и таких важных факторов, как пандемия, вызванная болезнью COVID-19,

«Торговцы людьми также адаптировали свои методы работы для киберпространства, используя цифровые платформы для рекламы, вербовки и эксплуатации жертв. Через Интернет торговцы людьми легко получают доступ к расширенному кругу клиентов, особенно к покупателям сексуальных услуг. В некоторых случаях торговцы людьми скрывают эксплуататорские услуги за законной деятельностью, чтобы избежать обнаружения правоохранительными органами, в то же время ориентируясь на свою клиентскую базу […] тщательно продуманный язык с закодированными ключевыми словами и изображениями используется для привлечения потенциальных клиентов» (UNODC, 2020).

Глобальный отчет о торговле людьми (УНП ООН, 2020 г.) включает набор данных, в котором можно найти несколько реальных случаев торговли людьми, связанных с классифицированными веб-страницами для рекламы. Одним из самых популярных случаев является сайт со списками Backpage, секретный веб-сайт США, который был оценен Федеральным бюро расследований США в апреле 2018 года. Хотя Backpage и многие другие подобные сайты были закрыты в последнее время лет различными правоохранительными органами, в Интернете по-прежнему существует множество веб-сайтов со списками.

Новые веб-сайты

После закрытия Backpage многие другие веб-сайты стали местом торговли людьми. В 2019 году новый канадский веб-сайт привлек внимание канадской полиции из-за опасений, что некоторые из его пользователей могут способствовать этому преступлению. На самом деле, по данным полицейского управления Торонто,

Теперь мы видим, как все больше и больше жертв [торговли людьми] рекламируются на этом сайте, и мне кажется… что он фактически заимствован у Backpage и является сайтом номер один, который сутенеры используют для рекламы сексуальных услуг жертв, которых они принуждают к секс-торговле (CBC, 8 февраля 2019 г.)

К сожалению, закрытие этих веб-сайтов со списками может быть не лучшим подходом к решению этой проблемы, потому что это скорее побудит людей к более тайной деятельности, чтобы предлагать такого рода услуги. Кроме того, это часто затрудняет проведение расследований правоохранительными органами, поскольку большая часть данных также будет удалена.

Итак, каковы основные проблемы?

  1. Торговля людьми на веб-сайтах со списками. Торговцы людьми используют киберпространство для рекламы, вербовки и эксплуатации жертв. Закрытие этих веб-сайтов невозможно, поскольку торговцы людьми либо перейдут на новый веб-сайт, либо начнут предлагать больше подпольных услуг.
  2. Ручная работа. В настоящее время многие прокуроры часто следят за этими веб-сайтами со списками, чтобы найти потенциальные дела о торговле людьми. Однако эта работа очень трудоемка и обычно очень сложно увидеть общую картину, т.е. очень сложно понять, как все эти рекламные объявления (возможно) связаны с одними и теми же преступными организациями.
  3. Отмывание денег. Торговцы людьми получают и отправляют деньги, используя услуги нескольких финансовых учреждений. Существующие подходы к решению этой проблемы основаны на выявлении аномальных транзакций, однако в настоящее время торговцы людьми все более изощренно пытаются скрыть свою деятельность.

Итак…что мы можем сделать?

Chain Breaker — Помогите нам бороться с торговлей людьми, используя данные

Chain Breaker (https://chainbreaker.community/) — это облачный инструмент, который автоматически ищет, извлекает, хранит и анализирует информацию с веб-сайтов, предлагающих сексуальные услуги. для выявления потенциальных жертв сексуальной эксплуатации, подозреваемых преступных сетей торговли людьми и секс-индустрии, подозреваемых в сокрытии эксплуататорской деятельности.

Он использует веб-скрапинг для сбора телефонных номеров, адресов электронной почты, имен, местоположений и изображений, а также понимание естественного языка для извлечения лингвистических характеристик рекламы, связанных с определенной преступной сетью или сексуальной индустрией, подозрительной в сокрытии деятельности по эксплуатации.

Этот инструмент предназначен для предоставления высококачественных и структурированных данных организациям, занимающимся борьбой с торговлей людьми, правоохранительным органам, финансовым учреждениям и компаниям, чтобы помочь аналитикам и следователям выявить онлайн-динамику, связанную с потенциальной сексуальной эксплуатацией.

Прием и предварительная обработка данных

В этой серии сообщений мы используем данные, извлеченные из категории «эскорт»на одном из крупнейших сайтов со списками объявлений в Канаде, и используем эта информация для построения графов знаний и характеристики их возникающих сообществ для выявления подозрительных кластеров по критерию прокуроров, работающих в данной сфере. Таким образом, Chain Breaker извлекает из каждого объявления следующие поля, а именно:

- Link (advertisement URL)
- ID Page (unigue advertisement identifier)
- Title
- Text
- Category
- Publication date
- Phone number
- Email
- Region
- City 
- Place (specific address within a city)
- Latitude & Longitude
- External website (some advertisements include an URL to another website where they also promote their services, this might include websites such as Twitter, Only Fans, Facebook, private webistes, among others)
- Ethnicity (asian, caucassian, black, mixed, etc)

Как только данные получены, форматируются только переменные region и city, чтобы удалить любой знак ударения, а затем в целях стандартизации они переводятся в нижний регистр, а название и текстовые переменные сохраняются в исходном формате. Вся эта информация загружается в MySQL и Neo4j (графовая база данных) для использования возникающих взаимосвязей в данных с использованием номера телефона, >email и внешние веб-сайты (однако мы сделаем это в следующих сообщениях!).

Доступ к данным (набор данных Kaggle!)

Я хочу, чтобы Chain Breaker стал сообществом специалистов по данным, которые объединяют усилия для борьбы с торговлей людьми. Вот почему теперь информация, полученная с помощью Chain Breaker, будет доступна всем и будет периодически публиковаться в Kaggle.

Этот набор данных состоит из 3463 объявлений, однако первые 1924 объявления не содержат переменных этническая принадлежность и возраст. Кроме того, ссылка, страница с идентификатором удаляются из набора данных, а номер телефона, электронная почта и внешний веб-сайт шифруются с использованием алгоритма SHA256. однако в целях безопасности это не влияет на возникающие связи, которые можно найти в данных. Доступ к набору данных можно получить в Kaggle, используя следующую ссылку.

Что дальше?

В следующем посте я представляю функции, которые мы стремимся извлечь из нашего набора данных на основе предыдущей исследовательской литературы по этой теме. Кроме того, я показываю, как мы можем представить наш набор данных в виде графика и мотивируем его важность.

Рекомендации

  • CBC (08 февраля 2019 г.) После закрытия Backpage полиция Торонто заявила, что LeoList становится местом торговли людьми. "Связь"
  • Глобальный доклад о торговле людьми (2020 г.). "Связь"