Защитите конфиденциальность пользователей от внешних приложений с помощью машинного обучения

Постановка задачи

Хранилище личных данных пользователей может храниться в централизованном хранилище, и эти личные данные могут быть доступны любым сторонним приложениям, таким как онлайн-социальные сети, приложения для здравоохранения или электронной коммерции и т. Д. Конфиденциальность данных пользователя будет под угрозой, если надлежащий доступ к конфиденциальности запрос не настроен, многие пользователи могут не знать, как обеспечить конфиденциальность своих данных или какая часть их данных может быть разрешена для доступа сторонним приложениям, Facebook говорит, что только 30% людей настраивают конфиденциальность только в своей учетной записи. Многие люди могут быть не знакомы с обеспечением конфиденциальности своей учетной записи, поэтому конфиденциальность их данных будет под угрозой.

О компании

steric infotech – американская компания по разработке программного обеспечения, которая предоставляет компаниям по всему миру индивидуальные технологические решения. Как компания по разработке приложений с опытными разработчиками программного обеспечения, технологическим опытом, опытом работы в конкретной области и стремлением к совершенству для предоставления решений корпоративного уровня.

Область деятельности компании заключается в предоставлении инновационных и совместных технологических решений с использованием высокотехнологичных инструментов и технологий, фреймворков и языков.

Предлагаемое решение

Чтобы преодолеть эту проблему, вводятся полууправляемые алгоритмы машинного обучения, которые берут входные данные с меткой конфиденциальности (часто называемой набором данных с меткой) и без метки конфиденциальности (набор данных без маркировки), а затем создают модель со всем набором данных с меткой, а затем применяют модель к немаркированные данные, чтобы предсказать метку конфиденциальности для немаркированных данных.

Полууправляемый — это существующий алгоритм, который работал на основе агрегированных вероятностей сходства, и иногда метка класса, выбранная этим алгоритмом, может конфликтовать, и автор избегает этого конфликта. Автор представил новую концепцию, называемую персонализированным алгоритмом активного обучения на основе истории (PHBAL). В предлагаемом алгоритме некоторые пользователи придают меткам классов некоторые проблемы; например: этот алгоритм дает больше меток «нет», чем «да». Эта классификация может быть в некоторой степени проблематичной.

В приведенном выше наборе данных вы можете видеть, что все имена, выделенные жирным шрифтом, являются именами столбцов набора данных, а ниже — значения набора данных. В последнем столбце мы видим метки 0, 1 и 2. Теперь посмотрим на несколько примеров из набора данных без меток.

В приведенном выше наборе данных без меток мы видим, что метки класса нет. мы должны предсказать эти метки классов, используя алгоритмы машинного обучения.

На приведенном выше рисунке видно, что набор данных label содержит 3040 записей и 9 немаркированных записей.

На приведенном выше рисунке мы получили каждый ярлык класса записи как ДА, НЕТ или МОЖЕТ с использованием алгоритма SSE и получили 55,56% точности.

На приведенном выше рисунке мы получили каждый ярлык класса записи как ДА, НЕТ или МОЖЕТ с использованием алгоритма PHBAL и получили точность 88,89 %.

Сравнение и анализ результатов

В этом общем анализе эксперимента мы видим сравнение двух разных алгоритмов и точности, полученной с помощью SSE и PHBAL.

На приведенном выше графике ось X представляет алгоритмы SSE, PHBAL, а ось Y представляет точность этих алгоритмов из приведенного выше графика. Таким образом, мы можем сделать вывод, что предложенный алгоритм лучше предсказывает метку класса по сравнению с существующим алгоритмом SSE.

На приведенном выше рисунке показано, что получена точность двух алгоритмов. Мы видим, что около 55,56% обучающего набора данных правильно помечено SSE, около 88,89% - PHBAL.

Вывод

После нескольких экспериментов мы получили алгоритм ансамбля с полуучителем с точностью 55,56%, а алгоритм персонализированного активного обучения на основе истории получил точность 88,89%.