Каждый, кто интересуется наукой о данных, должен быть знаком с основными компонентами аналитической модели. В этой статье будут обсуждаться 4 основных компонента аналитической модели, а именно: 1) компонент данных, 2) компонент алгоритма, 3) компонент реального мира и 4) этический компонент.

Знания, полученные на учебных курсах по науке о данных, необходимы для приобретения навыков в Компонентах 1 и 2 (Компонент данных и Компонент алгоритма). Навыки в компонентах 3 и 4 (компонент реального мира и этический компонент) в основном приобретаются в рамках реальных проектов в области науки о данных. При построении аналитической модели важно помнить, что модель должна давать значимые и интерпретируемые результаты в реальных жизненных ситуациях. Именно здесь на помощь приходит человеческий опыт. Прежде чем рекомендовать модель для развертывания, человек (квалифицированный специалист в области науки о данных) должен изучить результаты, полученные с помощью алгоритмов и компьютеров, чтобы убедиться, что результаты согласуются с ситуациями реального мира.

Давайте теперь обсудим 4 основных компонента аналитической модели.

4 основных компонента аналитической модели

1. Компонент данных

Этот компонент состоит из всего, что связано с данными, и включает в себя следующее:

i) Источники данных

В этом разделе рассматриваются все источники данных, такие как

а) план экспериментов или опросов для сбора данных

б) покупка данных у организаций, которые занимаются добычей и хранением больших наборов данных.

в) использование открытого набора данных

г) моделирование необработанных данных для объединения их с фактическими выборочными данными

ii) Подготовка и преобразование данных

Это касается предварительной обработки необработанных данных для преобразования их в форму, готовую для анализа или построения модели, и включает такие темы, как

а) обработка недостающих данных

б) условное исчисление данных

в) кодирование категориальных данных

г) идентификация прогностических и целевых характеристик

д) масштабирование данных, например стандартизация или нормализация функций

е) выбор характеристик и уменьшение размерности

ж) продвинутые методы преобразования данных, такие как PCA и LDA

Программное обеспечение, которое можно использовать для подготовки и преобразования данных, включает:

  • Пакет панд
  • Excel
  • R
  • Python

2. Компонент алгоритма

Это алгоритмы, которые применяются к данным, чтобы извлечь из данных полезную и информативную информацию. Алгоритмы можно разделить на описательные, предсказательные или предписывающие.

i) Алгоритмы описательной аналитики

К ним относятся пакеты, которые можно применять к данным в целях визуализации, например алгоритмы для создания гистограмм, линейных графиков, гистограмм, точечных диаграмм, парных диаграмм, диаграмм плотности, qqplots и т. Д. Некоторые из наиболее распространенных пакетов для описательной аналитики включают

а) Матплотлиб

б) Ggplot2

в) Сиборн

ii) Алгоритмы прогнозной аналитики

Это алгоритмы, которые используются для построения прогнозных моделей. Некоторые из наиболее распространенных пакетов для прогнозной аналитики включают

  • Пакет учебных материалов Sci-kit
  • Пакет Caret
  • Tensorflow

Алгоритмы прогнозной аналитики можно разделить на следующие группы:

а) Обучение с учителем (непрерывное прогнозирование переменных)

  • Базовая регрессия
  • Мультирегрессионный анализ
  • Регуляризованная регрессия

б) Обучение с учителем (прогнозирование дискретных переменных)

  • Классификатор логистической регрессии
  • Машинный классификатор опорных векторов
  • Классификатор K-ближайшего соседа (KNN)
  • Классификатор дерева решений
  • Классификатор случайного леса

в) Обучение без учителя

  • Алгоритм кластеризации Kmeans

iii) Алгоритмы предписывающей аналитики

Это алгоритмы, которые можно использовать для прописывания курса активного отдыха на основе информации, полученной на основе данных. Некоторые алгоритмы предписывающей аналитики включают:

а) Вероятностное моделирование

в) Методы оптимизации и исследование операций

в) Моделирование Монте-Карло

3. Компонент реального мира

Помните, что вы можете очень хорошо обрабатывать данные, а также создавать хорошие алгоритмы машинного обучения, но как специалист по данным, реальное приложение - это все, что имеет значение. Каждая модель машинного обучения должна давать значимые и интерпретируемые результаты реальных ситуаций. Прогностическая модель должна быть проверена на соответствие реальности, чтобы считаться значимой и полезной. Поэтому человеческий вклад и опыт всегда необходимы и полезны для понимания результатов, полученных с помощью алгоритмов.

Чтобы быть компетентным в компоненте реального мира, нужно приобрести навыки, выходящие за рамки тех, которые предоставляются академическими учебными программами по науке о данных и машинному обучению. Навыки, приобретенные только в ходе курсовой работы, не сделают вас специалистом по данным. Квалифицированный специалист по данным должен быть в состоянии продемонстрировать доказательства успешного завершения реального проекта в области науки о данных, который включает в себя все этапы рабочего процесса обработки данных и машинного обучения, такие как построение задачи, сбор и анализ данных, построение модели, тестирование модели и т. Д. оценка модели и развертывание модели. Реальные проекты в области науки о данных могут быть реализованы следующим образом:

а) Проекты Kaggle

б) Стажировки

в) Из интервью

Работа над реальным проектом в области науки о данных позволит вам глубже понять рабочий процесс построения модели, от постановки задачи до анализа данных, построения и тестирования модели, а также применения модели. Это также поможет вам приобрести дополнительные важные навыки, такие как

  • Навыки коммуникации
  • Навыки командного игрока
  • Навыки презентации
  • Деловая хватка

4. Этический компонент

Это компонент, который отвечает за поддержание высоких стандартов этики практикующими специалистами по обработке данных. Важно, чтобы вы, как специалист по данным, понимали значение результатов и выводов вашего проекта. Будьте честны с собой. Избегайте манипулирования данными или использования методов, которые намеренно приводят к искажению результатов. Будьте этичны на всех этапах от сбора данных до анализа, построения моделей, тестирования и применения. Избегайте фальсификации результатов с целью введения в заблуждение или манипулирования вашей аудиторией или руководителем. Будьте этичны в интерпретации результатов вашего проекта по науке о данных.

Таким образом, мы обсудили 4 основных компонента аналитической модели. Каждый, кто интересуется наукой о данных, должен быть знаком с основными компонентами аналитической модели.