Публикации по теме 'data-mining'
Поиск книг с использованием свободного текста
Реализована функция текстового поиска с использованием алгоритма TF-IDF .
Перед применением алгоритма TF-IDF данные должны быть предварительно обработаны.
Для этого были удалены стоп-слова и использовано стемминг Snowball.
Используя TF-IDF, мы можем вычислить вес каждого слова в документе, который представляет, насколько важно каждое слово для документа.
В этом TF определяется частота появления термина в документе . Это можно нормализовать, разделив частоту слова на общее..
Различие между большими данными, интеллектуальным анализом данных, машинным обучением, глубоким обучением и наукой о данных в ...
В этом цифровом мире каждый оставляет след.
Все большее количество подключенных к Интернету устройств, с которыми мы ежедневно взаимодействуем, записывают огромные объемы данных о нас.
У этого есть даже название - большие данные.
«Эрнст энд Янг» предлагает следующее определение: «Большие данные - это динамические, большие и разрозненные объемы данных, создаваемые людьми, инструментами и машинами. Требуются новые, инновационные и масштабируемые технологии для сбора, размещения и..
Анализ настроений: разгадка тайны твита-I
Это продолжение статьи: https://medium.com/@srajitsakhuja/why-is-twitter-such-an-amazing-dataset-for-sentimental-analysis-8fe70e26c5a9#.y468paqjh
Значительная часть твитов, которыми ежедневно делятся в Твиттере, связаны с настроением. Они описывают предмет: человека, событие, объект, и с каждым описанием связана определенная полярность . Эта полярность проявляется в словах и хэштегах, используемых в этих твитах.
Что за домен?
Недавно я начал создавать систему, которая может..
Заполнение отсутствующих данных о скорости ветра с использованием различных техник регрессии
Другой метод помимо использования среднего, медианы и модуса данных
Когда вы собираете данные, очень часто не хватает данных. Но это будет проблемой на этапе анализа данных. Обычная и лучшая практика, по крайней мере, для меня - просто игнорировать недостающие данные. Почему? Потому что независимо от насколько хорош ваш метод заполнения недостающих частей, всегда есть ошибка, вносимая этим методом . И тогда данные-заполнители не могут быть отсутствующим элементом шаблона в..
Машинное обучение и интеллектуальный анализ данных в домашней автоматизации
АННОТАЦИЯ
В настоящее время все большую популярность приобретают домашняя автоматизация и Интернет вещей. В современном мире автоматические системы предпочтительнее ручной системы. Система автоматизации умного дома основана на упрощении жизни пользователя. Интернет вещей генерирует огромное количество данных. Кроме того, он содержит огромное количество датчиков и их данных, которые могут контролировать или отслеживать объекты. В этой статье рассказывается о том, как большие средства..
Data Mining → Кластеризация
Кластеризация - это группировка определенного набора объектов или сущностей на основе их характеристик и их агрегирование в соответствии с их сходством.
Кластеризация аналогична классификации, данные сгруппированы. Однако, в отличие от классификации, группы не определены заранее. Вместо этого группировка выполняется путем нахождения сходств между данными в соответствии с характеристиками, обнаруженными в фактических данных. Группы называются кластерами .
Учитывая базу данных D = {t1,..
Как выполнять обнаружение мошенничества с помощью персонализированного рейтинга страницы
Вместе с пакетом Python Network
Полную статью в блоге Sicara читайте здесь .
В этой статье показано, как выполнять обнаружение мошенничества с помощью анализа графиков . Благодаря алгоритму Персонализированный рейтинг страницы и пакету Python Networkx .
Обнаружение мошенничества - одна из основных сфер интересов науки о данных. Поскольку мошенничество - это редкое явление , основная задача - найти способ выявить ненормальное поведение. Вот почему анализ графиков..