Одним из наиболее важных шагов для любого проекта в области науки о данных является проведение исследовательского анализа данных (EDA). По словам Джона Тьюки,

«Исследовательский анализ данных - это позиция, состояние гибкости, готовность искать то, чего, по нашему мнению, нет, а также то, что, по нашему мнению, существует»

EDA - это шаг, который вы выполняете перед созданием моделей машинного обучения, и он дает ценную информацию о текущем состоянии данных. Это может пролить свет на ошибки кода в конвейере данных, которые привели к данным, а также помогает визуализировать выбросы в ваших данных.

Есть много способов выполнить EDA, наиболее распространенный способ - использовать библиотеки, такие как matplotlib, Seaborn и т. Д. Я предпочитаю использовать Tableau для выполнения EDA, а затем, при необходимости, использовать библиотеки для получения любых визуализаций, которые недоступны как часть программного обеспечения. . Здесь я расскажу, как я выполняю Однофакторный и Двухвариантный анализ с помощью Tableau. Tableau - это бесплатная программа, которую можно скачать здесь.

Одномерный анализ

Одномерный анализ просто означает рассмотрение одной переменной за раз, попытки понять ее среднее значение, медиану, дисперсию, распределение и т. Д. Самый простой способ визуализировать распределение - использовать гистограммы и прямоугольные диаграммы.

Гистограмма и прямоугольные диаграммы

Создание гистограммы в виде таблицы очень просто.

  1. Перетащите объект из списка функций на левой панели.
  2. По умолчанию, если функция является мерой (например, числовым набором значений), Tableau объединяет значения в сумму или подсчет. Обязательно снимите флажок «Совокупные показатели» в параметрах анализа, как показано ниже.

3. Выберите гистограмму из доступных визуализаций.

4. Результатом станет гистограмма, как показано ниже. Если переменная на оси x не является категориальной. Tableau автоматически преобразует их в корзины, и это очень важно.

4. Для коробчатых диаграмм выберите вариант ниже.

Би вариативный анализ

Двухвариантный анализ включает анализ двух переменных (часто обозначаемых как X, Y) с целью определения эмпирической взаимосвязи между ними.

Диаграммы разброса

Диаграммы разброса - лучший способ провести двухвариантный анализ и визуализировать отношения между двумя переменными.

Выполните следующие шаги, чтобы создать диаграммы рассеяния в Tableau.

  1. Перетащите переменную x на панель «Столбцы».
  2. Перетащите переменную y в панель строк.
  3. По умолчанию, если функция является мерой (например, числовым набором значений), Tableau объединяет значения в сумму или подсчет. Обязательно снимите флажок «Совокупные показатели» в параметрах анализа, как показано ниже.

4. Используйте линии тренда, чтобы выделить интересные тенденции в ваших данных.

Собираем все воедино (панель инструментов)

Выполнив описанные выше шаги для каждой функции в наборе данных, вы, скорее всего, получите много листов, и простой способ собрать их все вместе в одном представлении - использовать панель инструментов. Для создания дашбордов

  1. Выберите новую панель управления

2. Просто добавьте созданные вами листы один за другим с панели «Листы» слева.

Заключение

Часто шаг EDA упускается из виду, но этот шаг - один из самых важных шагов в определении лучшей модели. EDA может показать, линейно ли распределены ваши данные или существует нелинейное распределение, и может дать ценную информацию о том, какая модель лучше всего работает с набором данных.

Если у вас возникнут какие-либо отзывы или вопросы, не стесняйтесь связаться со мной в LinkedIn