КЛАССИФИКАЦИЯ URL-адресов

Абстрактный

Наши компьютеры всегда уязвимы для злоумышленников, которые постоянно ожидают одного тривиального промаха, который могут совершить кибернавты. С этой точки зрения рассматриваемое исследование в основном касается алгоритмов классификации с машинным обучением, которые используются для обнаружения скептически настроенных URL-адресов и их категоризации по соответствующим типам, а именно URL-адреса вредоносного ПО, неопасные, нежелательные, фишинговые и искажающие. Подход начинается с импорта набора данных и его обработки с помощью необходимых методов предварительной обработки, чтобы подготовить его к раскрытию алгоритма. Назначение может быть выполнено с использованием многочисленных библиотек Python на платформе Anaconda. Эта платформа содержит блокнот Jupyter, веб-приложение, которое используется для создания и обмена документами с живым кодом, очисткой числовых и описательных данных и т. Д. Это веб-приложение с открытым исходным кодом. В качестве алгоритмов использовались алгоритмы классификации, а именно: Классификатор случайного леса (RFC), K - ближайших соседей (KNN) и алгоритм дерева решений. После предварительной обработки соответствующего набора данных он проходит обучение и тестирование, посредством которых определяется точность алгоритма. Результаты проведенных экспериментов следующие.

1. ВВЕДЕНИЕ

Машинное обучение - это подгруппа искусственного интеллекта, которая занимается объективным изучением алгоритмов и исполнительных моделей, которые необходимы компьютеру для выполнения определенной конкретной задачи без явного программирования. Вместо этого он полагается на шаблоны и интерпретации. По функциональности машинное обучение подразделяется на два типа: обучение с учителем и обучение без учителя.

Если алгоритм машинного обучения учится на экземпляре или примере из данных примера и если его соответствующие цели состоят из числового и строкового типа значений или меток, то это называется обучением с учителем. метки включают классы или теги, которые предсказывают правильный ответ на более поздних этапах при представлении нового примера.

В этом типе обучения алгоритм учится только на простых примерах. Он должен определять шаблоны данных самостоятельно, поскольку нет соответствующего ответа. В этом типе обучения представлены новые функции, такие как класс или новая серия некоррелированных значений. Полезно для придания значения данным, предоставляя идеи и новые полезные данные для контролируемого машинного обучения.

1.1 Интеллектуальный анализ данных, машинное обучение и глубокое обучение

В машинном обучении и интеллектуальном анализе данных используются одни и те же алгоритмы и методы, за исключением различных типов прогнозов. Машинное обучение воспроизводит известные шаблоны и знания, а интеллектуальный анализ обнаруживает неизвестные параметры. Они дополняют эту информацию данными, принятием решений и действиями.

С другой стороны, использование передовых вычислительных мощностей. Глубокое обучение - это разновидность нейронной сети. Они дополняют большие объемы данных для изучения, понимания и идентификации сложных трафаретов. Примерами глубокого обучения являются автоматический языковой перевод и медицинские диагнозы.

Популярные методы машинного обучения

Принято считать, что около семидесяти процентов алгоритмов машинного обучения контролируются, а от десяти до двадцати процентов - неконтролируемыми. Остальные 10 процентов суммируются другими методами. К этим редко используемым методам относятся обучение с подкреплением и обучение с полу-учителем. Следующий самый важный вопрос: как именно эти машины будут обучаться?

1.2 Контролируемое обучение

Когда входы и возможные выходы известны заранее и различаются, алгоритмы обучаются с использованием этого типа обучения с помеченными экземплярами. Давайте рассмотрим следующий пример, чтобы лучше понять это, точки данных, обозначенные как F (сбой) или R (запуски) в оборудовании.

Алгоритм контролируемого обучения будет принимать набор входных данных и соответствующие выходные данные, которые являются правильными для поиска ошибок. Кроме того, модель соответствующим образом изменит модель. Обучение с учителем осуществляется с помощью таких подходов, как прогнозирование, классификация, регрессия и повышение градиента. Вышеупомянутое обучение - это обучение идентификации паттернов. Таким образом, связанные шаблоны используются для прогнозирования дополнительных немаркированных данных и значений меток. Предсказание будущих ценностей с использованием исторических ценностей, Выявление мошенничества - вот некоторые из распространенных применений контролируемого обучения.

1.3 Неконтролируемое обучение

Неконтролируемое обучение имеет дело с наборами данных, не имеющими исторических данных. Эта характеристика обучения без учителя отличает его от обучения с учителем. Чтобы найти структуру, он исследует затменные данные. Этот вид обучения лучше всего работает с транзакционными данными; например, это помогает в идентификации клиентских сегментов и кластеров с определенными атрибутами, используемыми в контенте.

Популярные методы, в которых используется обучение без учителя, также включают самоорганизующиеся карты, отображение ближайшего соседа, разложение по сингулярным значениям и кластеризацию k-средних. Обычными примерами неконтролируемого обучения являются текстовые разделы сегментов, онлайн-рекомендации и свидетельства выбросов данных.

1.4 Полуавтоматическое обучение

Полуконтролируемое обучение - это нечто среднее между контролируемым и неконтролируемым обучением. Для обучения используются данные как с пометкой, так и без нее. В таком случае немаркированные данные берутся в большой пропорции, тогда как помеченные данные берутся в небольшой пропорции. Как видно из названия, полу-контролируемое обучение представляет собой комбинацию контролируемого и неконтролируемого обучения.

Используя более распространенные методы контролируемого машинного обучения, вы обучаете алгоритм машинного обучения на «помеченном» наборе данных, в котором каждая запись включает информацию о результатах. Хорошо известный сценарий машинного обучения заключается в том, что инженер получает доступ к огромному количеству данных. но это определялось самыми непритязательными ресурсами. немаркированные данные используются для большего внимания к общему формату генеральной совокупности.

1.5 Обучение с подкреплением

Это немного похоже на традиционный тип анализа данных; алгоритм обнаруживает методом проб и ошибок и решает, какое действие принесет больше вознаграждений. Агент, среда и действия - три основных компонента, которые можно идентифицировать в

Функциональность обучения с подкреплением. Говорят, что агент является обучающимся или лицом, принимающим решения, все, с чем агент взаимодействует, включает среду, а задачи, которые выполняет агент, являются действиями. Обучение с подкреплением - одна из областей, представляющих интерес в машинном обучении. В определенном сценарии обучение с подкреплением способно максимизировать вознаграждение за счет соответствующих действий. Кроме того, он помогает системам выбирать определенный путь во время запроса и в основном используется в программных системах.

Из этого мы можем сделать вывод, что программные агенты должны выполнять действия в рамках усиленного обучения, чтобы аккредитовать точку совокупного вознаграждения. модель вычисляет кредитный балл, начиная от произвольных маршрутов и кончая изысканным подходом и выдающимися достижениями.

Имея преимущество в виде множества следов и поиска, изобретательность машин в наши дни считается результатом обучения с подкреплением. Кроме того, его способность работать на мощной компьютерной инфраструктуре делает обучение с подкреплением коренным поворотом в искусственном интеллекте.

1.6 Неконтролируемые против. Обучение с учителем

Набор данных, помеченный как известное значение целевой переменной, используется в контролируемом обучении для выявления идей, закономерностей и взаимосвязей. Во время обучения алгоритмы машинного обучения должны давать правильные ответы на проблему. Этот процесс обучения включает в себя отношение функций к цели, что позволяет алгоритмам выявлять идеи и делать прогнозы относительно будущих последствий на основе соответствующих наборов данных.

Машинное обучение с учителем позволяет организациям использовать данные и заставлять их понимать, что приводит к предотвращению нежелательных последствий или достижению желаемых результатов, поскольку они превращают данные в реальные, действенные идеи. целевые переменные используются в контролируемом машинном обучении, поскольку он использует эти случаи в контролируемом машинном обучении, которое является одним из самых мощных механизмов, позволяющих системам ИИ быстрее принимать решения и с большей точностью, чем у людей. Компании в разных отраслях используют его для решения таких проблем, как:

1. Снижение оттока клиентов.

2. Определение пожизненной ценности клиента.

3. Персональные рекомендации по продуктам.

4. Распределение людских ресурсов

5. Прогнозирование продаж.

Тем не менее, успешное завершение алгоритма требует построения, масштабирования и развертывания точных моделей. модели машинного обучения требуют больших затрат времени и технической хватки высококвалифицированных и ценных специалистов по данным. кроме того, модели необходимо время от времени перестраивать, поскольку выводы остаются достоверными, несмотря на изменения во входных данных. Процесс начинается с обучения данных примера с соответствующими правильными метками в задачах, следующих за контролируемым обучением. Например, алгоритм контролируемого обучения при обучении классификации рукописных цифр использует многочисленные изображения этикеток с правильным номером, представленным на каждом изображении.

Следующий шаг в процессе включает в себя изучение алгоритма изображений и соответствующих им номеров с последующей классификацией новых изображений (без меток), которые неизвестны машине. Более сложные алгоритмы включают классификацию изображений для описания яркости пикселя, а комбинации пикселей должны быть помечены. Машинное обучение с учителем решает эту проблему, заставляя компьютер определять закономерности в данных, машина может формировать эвристики. Элементарный контраст между этим и человеческим обучением заключается в том, что машинное обучение рассматривается через призму информатики, поскольку оно выполняется на компьютере. Целью обучения с учителем является как можно более точное прогнозирование при наличии новых случаев, когда X известен, а Y неизвестен. Далее мы рассмотрим некоторые из наиболее распространенных при этом.

Расчеты машинного обучения без учителя позволяют конструировать проекты на основе набора данных без ссылки на известные или отмеченные результаты. Совсем не похоже на управляемое машинное обучение, методы неконтролируемого машинного обучения нельзя напрямую применить к рецидиву или проблеме характеристики, поскольку вы не знаете, какими качествами может быть информация об урожайности, что делает немыслимым для вас подготовить расчет того, как вы бы обычно это сделали. Обучение без учителя можно скорее использовать для нахождения фундаментальной структуры информации. Неконтролируемое машинное обучение подразумевает выявление и без того малоизвестных примеров в информации, но чаще всего эти примеры плохо отражают то, чего может достичь направленное машинное обучение. Кроме того, поскольку вы не имеете ни малейшего представления о том, какими должны быть результаты, крайне маловероятно, что вы решите, насколько они точны, что делает управляемое машинное обучение более подходящим для решения реальных задач. Лучшее время для использования машинного обучения без учителя - это момент, когда у вас нет информации о желаемых результатах, например о выборе объективного рынка для совершенно нового предмета, который ваш бизнес никогда не продавал. Как бы то ни было, если вы пытаетесь показать признаки улучшения понимания вашей текущей клиентской базы, административного обучения.

Обнаружение аномалий может автоматически обнаруживать необычные точки данных в вашем наборе данных. Это полезно для выявления мошеннических транзакций, обнаружения неисправных частей оборудования или выявления отклонений, вызванных человеческой ошибкой во время ввода данных. Анализ ассоциаций распознает наборы вещей, которые обычно происходят вместе в вашем наборе данных. Розничные продавцы регулярно используют его для исследования мусорных баков, поскольку он позволяет исследователям находить продукты, которые часто покупаются одновременно, и становится все более действенным средством продвижения и маркетинга.

Неактивные модели переменных обычно используются для предварительной обработки информации, например, для уменьшения количества выделений в наборе данных (уменьшение размерности) или разбиения набора данных на множество частей. Примеры, которые вы раскрываете с помощью методов неконтролируемого машинного обучения, также могут оказаться полезными при реализации стратегий регулируемого машинного обучения в дальнейшем. Например, вы можете использовать неконтролируемую стратегию для выполнения кластерного исследования информации, в этот момент использовать кластер, в котором есть место для каждого столбца, в качестве дополнительного элемента в управляемой модели обучения (см. Полунаправленное машинное обучение). Другая модель - это модель обнаружения искажений, в которой используется обнаружение особенностей.

Как бы вы расположили базовую структуру набора данных? Как бы вы его сконденсировали и собирали наиболее удобно? Как бы вы адекватно передавали информацию в упакованном виде? Это цели обучения без учителя, которое классифицируется как «неконтролируемое», потому что вы начинаете с немаркированной информации (там нет Y).

Две задачи обучения без учителя, которые мы рассмотрим, - это группирование информации в группы по близости и уменьшение размерности для упаковки информации при сохранении ее структуры и полезности. В отличие от обучения с учителем, не во всех случаях просто придумывать измерения того, насколько хорошо выполняется расчет без учителя. «Казнь» обычно носит эмоциональный и явный характер со стороны промоутеров, при этом фокусируясь на рекламе в Facebook, рекламных акциях, почтовых баталиях и т. Д.

В их техническом документе раскрывается, что они использовали кластеризацию центроидов и исследование головной части, две из которых представляют собой системы, рассмотренные прямо сейчас, и могут представить, как приближение к этим кластерам очень полезно для спонсоров, которым необходимо

(1) понять свою текущую клиентскую базу и

(2) адекватно расходуют свои рекламные расходы, сосредотачиваясь на потенциальных новых клиентах с соответствующими социально-экономическими проблемами.

2. ОБНАРУЖЕНИЕ ВРЕДОНОСНЫХ URL-адресов.

2.1 URL

Каждый отчет в Интернете имеет уникальное расположение. Это расположение известно как унифицированный указатель ресурсов (URL). Некоторые метки HTML / XHTML включают оценку свойств URL, включая гиперссылки, встроенные изображения и структуры. Каждый из них использует схожую лингвистическую структуру для определения области веб-ресурса, мало обращая внимания на его сущность. По этой причине он известен как универсальный указатель ресурсов.

URL-адрес содержит имя соглашения, которое, как ожидается, приведет к ресурсу, так же, как и имя ресурса. Начальный сегмент URL-адреса определяет, какое соглашение использовать в качестве основного средства доступа. Последующая часть распознает IP-адрес или имя области - и, возможно, подпространство - где находится актив.

Протоколы URL включают протокол передачи гипертекста (HTTP) и HTTP Secure для веб-ресурсов, почту для адресов электронной почты, FTP для записей на сервере протокола передачи файлов (FTP) и telnet для встречи с удаленными компьютерами. Большинство протоколов URL завершаются двоеточием и двумя прямыми фрагментами; После «mail to» стоит однозначно двоеточие.

Элементы URL

URL-адрес состоит из нескольких разделов, каждый из которых предлагает интернет-браузеру данные, которые помогают найти страницу. Получить опыт работы с частями URL-адреса проще: если вы внимательно посмотрите на URL-адрес модели, приведенный ниже, есть три ключевых части: адрес хоста, путь к файлу и схема. В сопроводительной зоне расскажут о каждом из них:

Http://www.wikipedia.com/index.html

Схема

Схема различает тип соглашения и URL-адрес, к которому вы подключаетесь, и, следовательно, способ восстановления актива. Например, большинство интернет-браузеров используют соглашение о перемещении гипертекста (HTTP) для передачи данных для взаимодействия с веб-серверами, и это объяснение того, что URL-адрес начинается с https: //.

Адрес хоста

Адрес хоста - это место, где можно найти сайт, либо IP-адрес (четыре расположения чисел где-то в диапазоне от 0 до 255, например, 68.178.157.132), либо, что чаще всего, имя области для сайта, для например, www.wikipedia.com. Обратите внимание, что www не является полностью именем пространства, даже если оно часто используется в адресе хоста.

Путь к файлу

Путь к файлу всегда начинается с символа прямого среза и может содержать по крайней мере один каталог или имя организатора. Каждое имя каталога изолируется путем пересылки вырезанных символов, и способ записи может заканчиваться именем файла ближе к концу. Здесь index.htm - это имя файла, которое доступно в каталоге Html:

Https://www.quora.com/html/index.htm

Другие части URL

Использование сертификатов - это метод определения имени пользователя и секретного ключа для секретной фразы, защищающей некоторую часть сайта. Квалификации предшествуют адресу хоста и отделены от адреса хоста знаком @. Обратите внимание, как имя пользователя отделяется от секретной фразы двоеточием. Прилагаемый URL показывает имя пользователя administrator и секретное слово admin123:

Https: // admin: [email protected]/admin/index.htm

Еще одна важная информация - это номер порта веб-сервера. Само собой разумеется, что HTTP-сервер работает на порту с номером 80. В любом случае, если вы запускаете сервер на каком-то другом номере порта, в этот момент вполне может быть указано следующее, ожидая, что сервер работает на порту 8080 :

Https://www.techipedia.com:8080/index.htm

Идентификаторы фрагментов могут использоваться после имени файла, чтобы продемонстрировать конкретную часть страницы, которую программа должна немедленно покинуть. Ниже приводится руководство по достижению наивысшей точки страницы html_text_links.htm.

Https://www.wikipedia.com/html/html_text_links.htm в Интернете #top

Вы можете передать некоторые данные на сервер, используя URL. В момент, когда вы используете структуру на странице сайта, например, структуру поиска или структуру запроса, программа может добавить данные, которые вы вводите в URL-адрес, для передачи данных из вашей программы на сервер следующим образом:

Https://www.quora.com/cgi-bin/search.cgi?searchTerm=HTML

Здесь searchTerm = HTML передается на сервер, где содержимое search.cgi используется для анализа этих переданных данных и выполнения дальнейших действий.

Абсолютные и относительные URL-адреса

Вы можете адресовать URL-адрес одним из следующих двух способов:

Абсолютный - URL-адрес - это полное местоположение актива. Например, http://www.quora.com/html/html_text_links.htm

Относительный - относительный URL-адрес показывает, где находится актив на текущей странице. Givtheven добавляется с компонентом для формирования полного URL-адреса. Например, / html / html_text_links.html

Зарезервированные и небезопасные символы

Зарезервированные символы - это те, которые имеют особое значение внутри URL-адреса. Например, символ фрагмента изолирует компоненты URL-адреса. Если вам нужно запомнить фрагмент для URL, который не должен быть разделителем компонентов, вам необходимо закодировать его как /:

Небезопасные символы - это те, которые не имеют особого значения внутри URL, но могут иметь уникальное значение в контексте, в котором составлен URL. Например, двойные утверждения («) ограничивают качество URL в ярлыках. Если вам нужно напрямую включить двойную цитату в URL-адрес, вы, скорее всего, запутаете программу. Скорее, вам следует закодировать двойную цитату, чтобы сохранять стратегическую дистанцию от любого мыслимого столкновения.

2.2 Описание проблемы

Наше восприятие понимания данного набора данных заключалось в обнаружении вредоносных URL-адресов на основе различных алгоритмов машинного обучения, а также их развертывании на платформах в качестве серверного приложения.

2.3 ЦЕЛЬ ПРАКТИЧЕСКОГО ИССЛЕДОВАНИЯ

Всемирная паутина лежит в основе широкого спектра преступлений, например, Интернет-бизнес, рекламируемый спамом, искажение денежных сведений и распространение вредоносных программ. Несмотря на то, что точное вдохновение, лежащее в основе этих планов, может отличаться, общий фактор заключается в том, как невежественные клиенты посещают свои пункты назначения. Эти посещения могут быть вызваны электронной почтой, элементами веб-списка или подключениями с других веб-страниц. Во всех случаях, в любом случае, клиент должен сделать какой-то ход, например, нажав на идеальный унифицированный указатель ресурсов (URL).

Чтобы отличить эти злонамеренные места назначения, сеть веб-безопасности создала администрацию бойкотирования. Таким образом, эти бойкоты разрабатываются различными системами, включая ручное оповещение, приманки и поисковые роботы, объединенные с эвристикой проверки веб-страниц. Неизбежно, что многие злонамеренные районы не бойкотируются либо потому, что они возникли слишком поздно, либо никогда не были оценены или были ошибочно оценены. Мы рассматриваем обнаружение вредоносных URL-адресов как проблему бинарной классификации и изучаем производительность нескольких хорошо известных классификаторов, деревьев решений, случайного леса и k-ближайших соседей. Кроме того, мы получили открытый набор данных, включающий 2,4 миллиона URL-адресов (случаев) и 3,2 миллиона основных моментов.

2.3.1 Что такое вредоносный URL?

Вредоносный URL-адрес - это соединение для продвижения уловок, атак и читов. Нажав на зараженный URL-адрес, вы можете загрузить вредоносное ПО или троян, который может захватить ваши гаджеты, или вас можно убедить предоставить конфиденциальные данные на фальшивом сайте. К наиболее широко известным трюкам с вредоносными URL-адресами относятся спам и фишинг. Фишинг - это разновидность искажения фактов, используемая нарушителями закона, которые пытаются обмануть пострадавших, подражая известным и конфиденциальным данным ассоциациям или отдельным лицам. Это означает, что вы можете получить вредоносный URL-адрес в электронном письме от вашего собеседника, если его учетная запись электронной почты была взломана или если преступник пытается ввести вас в заблуждение, подделав имя и адрес вашего собеседника.

Вредоносные соединения также могут быть скрыты, насколько кто-либо знает безопасные интерфейсы загрузки, и могут быстро распространяться через обмен документами и сообщениями в системах совместного использования. Как и в случае с сообщениями, сайты могут быть взломаны, что может привести к тому, что клиенты будут переходить по вредоносным URL-адресам и законно передавать конфиденциальные данные мошенникам.

III Исследовательский анализ данных - Методология исследования.

EDA - это чудо в области анализа данных, используемого для лучшего понимания углов данных, таких как:

- основные характеристики данных

- факторы и связи, которые существуют между ними

- определение факторов, влияющих на нашу озабоченность. Мы рассмотрим различные методы исследовательского анализа данных, такие как:

3.1 Описательная статистика

Описательная статистика - это полезный метод для понимания качества вашей информации и быстрого ее обобщения. Панды в Python предлагают интригующую стратегию описания (). Они описывают работу, применяют фундаментальные фактические расчеты к набору данных, такие как необычные качества, сводная информация фокусируется на стандартном отклонении и так далее.

Следовательно, любая недостающая ценность или нано-оценка пропускаются. Описание работы description () дает хорошее представление о циркуляции информации. Описательная статистика включает сокращение и сортировку информации, чтобы ее можно было легко понять. Описательная статистика, в отличие от статистических выводов, пытается описать информацию, однако не пытается делать предположения на основе примера для всего населения. Здесь мы обычно описываем информацию в виде примера. Это, по большей части, означает, что описательная статистика, в отличие от логической статистики, не создается на основе гипотезы правдоподобия.

3.1.1 ТЕПЛОВАЯ КАРТА

Seaborn - это библиотека Python с открытым исходным кодом, лицензированная BSD, предоставляющая интерфейс программирования повышенного уровня для представления информации с использованием языка программирования Python. Тепловая карта - это метод передачи информации в двумерной структуре.

Информационные оценки обозначены оттенками на диаграмме. Тепловая карта предназначена для визуализации данных в затемненном виде. Сначала, когда мы получаем информацию, вместо того, чтобы применять экстравагантные вычисления и делать некоторые ожидания, мы сначала пытаемся просмотреть и понять информацию, применяя измеримые процедуры.

ОТРИЦАТЕЛЬНАЯ КОРРЕЛИРОВКА: Pathtokencount и avgdomaintokenlen - сильно отрицательно коррелированные Domainurlratio и pathurlratio - умеренно отрицательные

ПОЛОЖИТЕЛЬНАЯ КОРРЕЛИРОВКА: urllen и charcompace - очень положительная корреляция

3.2 DISTPLOT:

График распределения удобен как для просмотра тиража, так и для распределения сборников информации. Информация должна быть числовой. Информация стоит так же фокусируется вместе с хабом. Он ловко отображает одномерное распределение восприятий. Функция присоединяется к функции hist matplot (с запрограммированным вычислением

приличный размер контейнера по умолчанию) с функциями seaborn kdeplot () и rugplot (). Он также может соответствовать scipy. Подробная информация о распределении и нанесение оцененного PDF поверх информации. Гистограмма отмечена на линии морского пути. Это может проявляться в большом количестве разновидностей. Мы используем seaborn в сочетании с matplotlib, модулем построения графиков Python.

График распределения отображает одномерное распределение восприятий. Функция distplot () объединяет функцию matplotlib hist с функциями seaborn kdeplot () и rugplot (). Оценка плотности ядра (KDE) - это подход к оценке функции плотности правдоподобия непрерывной случайной величины. Используется для непараметрических исследований. Если установить для баннера hist значение Bogus в distplot, будет получен график оценки плотности ядра.

Наблюдение: на полученном графике можно увидеть четкую форму колокола. Это означает, что функцию можно рассматривать как один из входов. Наблюдение за формой колокола необходимо для выбора необходимых входных данных.

4 АЛГОРИТМЫ И РЕЗУЛЬТАТЫ

4.1 АЛГОРИТМЫ КЛАССИФИКАЦИИ

В машинном обучении и инсайтах классификация - это управляемый подход к обучению, при котором программа для ПК извлекает выгоду из вводимой информации, а затем использует это обучение для упорядочивания нового восприятия. Этот информационный индекс может быть по существу двухклассовым (например, различать, является ли человек мужчиной или женщиной, или что письмо является спамом или не спамом), или он также может быть многоклассовым. Несколько примеров проблем с характеристикой - это подтверждение дискурса, подтверждение почерка, биометрическое распознаваемое доказательство, организация архива и так далее. Типы алгоритмов классификации:

• Линейные классификаторы: регрессия, наивный байесовский анализ

• Ближайший сосед

• Машины опорных векторов

• Усиленные деревья

• Деревья решений

• Случайный лес

• Нейронные сети

4.2 ТОЧНОСТЬ АЛГОРИТМОВ

Стандартная ошибка датчика пропорциональна точности прогнозов. Вы просто измеряете количество правильных прогнозов, которые делает ваш классификатор, делите на общее количество тестовых примеров, и в результате получается точность вашего классификатора.

4. среднеквадратичное отклонение

RMSE - это квадратный корень из изменения остатков. Он действительно показывает общую сумму модели и информацию о том, насколько близки фокусы наблюдаемой информации к ожидаемым качествам модели. Среднеквадратичное отклонение или среднеквадратичная ошибка - это время от времени используемая пропорция контрастов между значениями, ожидаемыми моделью или оценщиком, и наблюдаемыми качествами. Среднеквадратичная ошибка (RMSE) - это стандартное отклонение остатков (ошибок ожидания).

4.4 РЕЗУЛЬТАТЫ

ДРЕВО РЕШЕНИЙ

Дерево решений формирует модели порядка или регрессии в виде древовидной структуры. Он разделяет информационную коллекцию на более мелкие и более мелкие подмножества, в то время как одновременно постепенно развивается связанное дерево решений. Конечным результатом является дерево с узлами решения и листовыми узлами.

Узел принятия решения имеет как минимум две ветви, а конечный концентратор обращается к группе или решению. Хаб наивысшего решения в дереве, который сравнивается с лучшим индикатором, называемым корневым узлом. Деревья решений могут обрабатывать как прямую, так и числовую информацию.

В информатике при обучении по дереву решений используется дерево решений для перехода от наблюдений за элементом к выводам о целевом значении элемента. Это один из подходов к прогнозному моделированию, используемых в статистике, интеллектуальном анализе информации и машинном обучении. Деревья решений - это своего рода контролируемое машинное обучение (то есть вы разъясняете, что это за информация и каков результат сравнения в подготовительной информации), где информация постоянно является частью в соответствии с определенным параметром. Дерево можно пояснить двумя веществами, а именно узлами решения и листьями.

Полученная точность: 99,93%.

Точность

СЛУЧАЙНЫЙ КЛАССИФИКАТОР ЛЕСА:

Случайные леса или леса случайных решений - это стратегия обучения группы для характеристики, регрессии и различных поручений, которая работает путем разработки огромного количества деревьев решений во время подготовки и получения класса, который является методом классов (группировка) или средним прогнозом ( регрессия) отдельных деревьев. Леса случайных решений имеют право на склонность деревьев решений к переобучению их подготовительному набору. Случайный лесной классификатор - расчет труппы. Например, прогон ожиданий по наивному байесовскому алгоритму, SVM и дереву решений, а затем решение в пользу окончательной мысли о классе для тестового объекта.

Полученная точность: 57%

K-КЛАССИФИКАТОР БЛИЖАЙШИХ СОСЕДЕЙ:

Алгоритм k-ближайших соседей - это алгоритм расположения, и он контролируется: он берет много отмеченных фокусов и использует их, чтобы выяснить, как назвать разные фокусы. Чтобы назвать другую точку, он смотрит на отмеченные фокусы, ближайшие к этой новой точке (это ее ближайшие соседи), и голосует за этих соседей, поэтому какое бы имя ни было у подавляющего большинства соседей, это имя новой точки (« k ”- количество проверяемых соседей). K-Nearest Neighbours - один из самых фундаментальных, но базовых алгоритмов порядка в машинном обучении. Он имеет место с контролируемым учебным пространством и находит исключительное применение в подтверждении проектирования, извлечении информации и обнаружении прерываний.

Это, как правило, расходные материалы, учитывая все обстоятельства, ситуации, поскольку он непараметрический, что означает, что он не делает никаких скрытых предположений о распределении информации (в отличие от различных алгоритмов, например, GMM, которые ожидают гауссовское распределение предоставленная информация).

Полученная точность: 86%

5. ЗАКЛЮЧЕНИЕ И РАМКИ НА БУДУЩЕЕ

В частности, мы изобразили возможности и методологию классификации данного списка возможностей для вредоносного местоположения URL. В тот момент, когда обычная стратегия не достигает цели при распознавании новых вредоносных URL-адресов, предлагаемую нами технику можно расширить с ее помощью, и на нее можно положиться для улучшения результатов. Вот прямо сейчас предлагается список возможностей, с помощью которых можно готовить URL-адреса. Дальнейшая работа заключается в настройке алгоритма машинного обучения, который позволит добиться лучших результатов за счет использования данного списка возможностей. В дополнение к этому открытый запрос - это то, как мы можем обрабатывать огромное количество URL-адресов, набор основных моментов которых разовьется через некоторое время. Определенные усилия должны быть предприняты на этом пути, чтобы составить более полный список возможностей, которые могут измениться в связи с приближающимися изменениями.

6. ЛИТЕРАТУРА

1. Основы машинного обучения для прогнозной аналитики данных, Брайан Мак.

2. Программирование коллективного разума Тоби Сегаран. 4. Балди, П., Брунак, С. (2002). Биоинформатика: подход к машинному обучению. Кембридж, Массачусетс: MIT Press 5. Изображение любезно предоставлено: просто изучите и воспользуйтесь

3. Улучшенная модель обнаружения фишинговых писем.

КЛАССИФИКАЦИЯ URL-адресов

Абстрактный

1. ВВЕДЕНИЕ

2. ОБНАРУЖЕНИЕ ВРЕДОНОСНЫХ URL-адресов.

4 АЛГОРИТМЫ И РЕЗУЛЬТАТЫ

4. среднеквадратичное отклонение

ДРЕВО РЕШЕНИЙ

СЛУЧАЙНЫЙ КЛАССИФИКАТОР ЛЕСА:

K-КЛАССИФИКАТОР БЛИЖАЙШИХ СОСЕДЕЙ:

5. ЗАКЛЮЧЕНИЕ И РАМКИ НА БУДУЩЕЕ

6. ЛИТЕРАТУРА

GITHUB: https://github.com/siddharthakanchar/Url-classification-Prediction-Model-

LINKEDIN: https://www.linkedin.com/in/siddhartha-kancharla/

КЛАССИФИКАЦИЯ URL-адресов

Абстрактный

1. ВВЕДЕНИЕ

2. ОБНАРУЖЕНИЕ ВРЕДОНОСНЫХ URL-адресов.

4 АЛГОРИТМЫ И РЕЗУЛЬТАТЫ

4. среднеквадратичное отклонение

ДРЕВО РЕШЕНИЙ

СЛУЧАЙНЫЙ КЛАССИФИКАТОР ЛЕСА:

K-КЛАССИФИКАТОР БЛИЖАЙШИХ СОСЕДЕЙ:

5. ЗАКЛЮЧЕНИЕ И РАМКИ НА БУДУЩЕЕ

6. ЛИТЕРАТУРА

GITHUB: https://github.com/siddharthakanchar/Url-classification-Prediction-Model-

LINKEDIN: https://www.linkedin.com/in/siddhartha-kancharla/

Вопросы по теме