Публикации по теме 'data-mining'


Поиск книг с использованием свободного текста
Реализована функция текстового поиска с использованием алгоритма TF-IDF . Перед применением алгоритма TF-IDF данные должны быть предварительно обработаны. Для этого были удалены стоп-слова и использовано стемминг Snowball. Используя TF-IDF, мы можем вычислить вес каждого слова в документе, который представляет, насколько важно каждое слово для документа. В этом TF определяется частота появления термина в документе . Это можно нормализовать, разделив частоту слова на общее..

Различие между большими данными, интеллектуальным анализом данных, машинным обучением, глубоким обучением и наукой о данных в ...
В этом цифровом мире каждый оставляет след. Все большее количество подключенных к Интернету устройств, с которыми мы ежедневно взаимодействуем, записывают огромные объемы данных о нас. У этого есть даже название - большие данные. «Эрнст энд Янг» предлагает следующее определение: «Большие данные - это динамические, большие и разрозненные объемы данных, создаваемые людьми, инструментами и машинами. Требуются новые, инновационные и масштабируемые технологии для сбора, размещения и..

Анализ настроений: разгадка тайны твита-I
Это продолжение статьи: https://medium.com/@srajitsakhuja/why-is-twitter-such-an-amazing-dataset-for-sentimental-analysis-8fe70e26c5a9#.y468paqjh Значительная часть твитов, которыми ежедневно делятся в Твиттере, связаны с настроением. Они описывают предмет: человека, событие, объект, и с каждым описанием связана определенная полярность . Эта полярность проявляется в словах и хэштегах, используемых в этих твитах. Что за домен? Недавно я начал создавать систему, которая может..

Заполнение отсутствующих данных о скорости ветра с использованием различных техник регрессии
Другой метод помимо использования среднего, медианы и модуса данных Когда вы собираете данные, очень часто не хватает данных. Но это будет проблемой на этапе анализа данных. Обычная и лучшая практика, по крайней мере, для меня - просто игнорировать недостающие данные. Почему? Потому что независимо от насколько хорош ваш метод заполнения недостающих частей, всегда есть ошибка, вносимая этим методом . И тогда данные-заполнители не могут быть отсутствующим элементом шаблона в..

Машинное обучение и интеллектуальный анализ данных в домашней автоматизации
АННОТАЦИЯ В настоящее время все большую популярность приобретают домашняя автоматизация и Интернет вещей. В современном мире автоматические системы предпочтительнее ручной системы. Система автоматизации умного дома основана на упрощении жизни пользователя. Интернет вещей генерирует огромное количество данных. Кроме того, он содержит огромное количество датчиков и их данных, которые могут контролировать или отслеживать объекты. В этой статье рассказывается о том, как большие средства..

Data Mining → Кластеризация
Кластеризация - это группировка определенного набора объектов или сущностей на основе их характеристик и их агрегирование в соответствии с их сходством. Кластеризация аналогична классификации, данные сгруппированы. Однако, в отличие от классификации, группы не определены заранее. Вместо этого группировка выполняется путем нахождения сходств между данными в соответствии с характеристиками, обнаруженными в фактических данных. Группы называются кластерами . Учитывая базу данных D = {t1,..

Как выполнять обнаружение мошенничества с помощью персонализированного рейтинга страницы
Вместе с пакетом Python Network Полную статью в блоге Sicara читайте здесь . В этой статье показано, как выполнять обнаружение мошенничества с помощью анализа графиков . Благодаря алгоритму Персонализированный рейтинг страницы и пакету Python Networkx . Обнаружение мошенничества - одна из основных сфер интересов науки о данных. Поскольку мошенничество - это редкое явление , основная задача - найти способ выявить ненормальное поведение. Вот почему анализ графиков..