Публикации по теме 'data-visualization'


Прогнозируйте отток клиентов с помощью PySpark
Обзор проекта: Sparkify — это вымышленный поставщик музыкальных услуг, похожий на Spotify, и им нужна модель, помогающая прогнозировать отток клиентов. Нам предоставляются логи о поведении пользователей за последние несколько месяцев. Пользователь может иметь более одного образца, поскольку он мог выполнить несколько действий. Отток пользователей может быть идентифицирован всякий раз, когда есть действие по аннулированию учетной записи. Постановка проблемы: Данные, с которыми..

Как построить базовую строку в D3.js
При работе с данными одним из наиболее важных аспектов является их представление. По этой причине существуют различные инструменты и методы визуализации данных. В этом уроке я покажу вам, как построить базовую линию в D3.js . D3.js — одна из самых мощных библиотек для визуализации данных в javascript. По этой ссылке вы можете найти несколько базовых руководств по изучению D3.js. Код можно загрузить из моего репозитория Github , и он свободно вдохновлен этим примером , извлеченным..

Новое в Topix 2.0: Интерактивная сетевая визуализация
Мы рады объявить о выпуске нашего первого набора интерактивных сетевых визуализаций для тематического моделирования, созданных с использованием мощного API Linkurious Ogma. ( https://linkurio.us/ ) Topix 2.0 теперь доступен по адресу https://topix.io . Если вы новичок в тематическом моделировании, ознакомьтесь с нашим учебным пособием по адресу https://topix.io / tutorial/tutorial.html. Визуализация сети Topix 1: словарный запас по тематической сети В этом посте мы..

5 Расширенная визуализация для исследовательского анализа данных (EDA)
Каждый любитель или профессиональный специалист по данным должен уметь проводить исследовательский анализ данных. Это для того, чтобы увидеть, что данные могут сказать нам помимо формального моделирования или статистического анализа. Рано утром на встречу с Шерлоком Холмсом и Ватсоном приходит дама. Еще до того, как дама откроет рот и начнет объяснять причину своего визита, Шерлок может многое рассказать о человеке благодаря своей наблюдательности и умозрительности. Точно так же мы..

Как мы можем определить, будет ли фильм отличным?
Объединение кластеризации k-средних с деревом решений по данным IMDb Задний план Вы когда-нибудь задумывались, насколько великим будет фильм до его выхода? Недавно данные IMDb о более чем 5000 фильмах были скопированы с помощью Python и опубликованы на Kaggle.com Чуаном Саном. Набор данных доступен здесь . Цель Наша цель - выяснить, какие факторы могут способствовать созданию отличных фильмов. Подход 1… Примените кластеризацию k-средних, чтобы разделить фильмы на..

NYC Crimes — Прогнозирование временных рядов
Введение Для своего завершающего проекта я решил проанализировать и построить модель временных рядов, предсказывающую количество преступлений в следующие 5 лет, разделенных по районам. Я получил набор данных с веб-сайта полиции Нью-Йорка со всеми типами информации о преступлениях с 2006 по 2019 год. После очистки описаний преступлений, мест, типов данных и нулевых значений я получил около 5 миллионов инцидентов с начала 2006 года по конец 2019 года. Затем данные были сгруппированы по..

Долгосрочный анализ пользователей Twitter
Автор Fabrizio Puzzo Во время пандемии COVID-19 мы были ошеломлены бесчисленными новостями и профессиональными комментариями. Огромный объем информации затрудняет ведение четкого обзора того, что конкретный орган или организация сообщает о пандемии и о том, что еще происходит в мире. В своей собственной попытке решить эту проблему я разработал конвейер обработки данных, который анализирует учетные записи Twitter с течением времени. Конечная цель конвейера - получить обзор того,..