Когда я только начинал свой путь в науке о данных, я только что изучил базовую статистику и Python, просто погрузился в мир данных и всегда путался в nиспользуемых терминах. Все эти вещи были прояснены после долгого времени, о котором я должен был знать в начале моего путешествия. Знание подробного термина помогает выбрать область интересов, поскольку машинное обучение в науке о данных является взаимосвязанным термином и часто сбивает с толку новичков. Итак, я составил список, удобный для начинающих, просто просмотрите его и начните свое обучение:

Анализ данных

Анализ данных — это процесс проверки, очистки, преобразования и моделирования данных с целью обнаружения полезной информации, обоснования выводов и поддержки принятия решений.

Аналитик данных имеет смысл в существующих данных...

  • АНАЛИЗ ИССЛЕДОВАТЕЛЬСКИХ ДАННЫХ

Исследовательский анализ данных относится к критическому процессу выполнения первоначальных исследований данных с целью выявления закономерностей, выявления аномалий, проверки гипотез и проверки предположений с помощью сводной статистики и графических представлений.

Наука о данных

Наука о данных — это дисциплина применения передовых методов аналитики для извлечения ценной информации из данных для принятия бизнес-решений и стратегического планирования. Он объединяет такие области, как интеллектуальный анализ данных, статистика, математика, машинное обучение, визуализация данных и программирование программного обеспечения.

Ученый по данным работает над новыми способами сбора и анализа данных, которые будут использоваться аналитиками...

Инженерия данных

это дисциплина, которая фокусируется на таких аспектах, как идентификация источников данных, сбор, обработка и хранение данных.

Хранилище данных

является центральным хранилищем информации, которую можно использовать для анализа и принятия более обоснованных решений. (Ссылка: Амазон)

Озеро данных

Озеро данных — это большой репозиторий корпоративных данных в необработанном формате.

Большие данные

Это относится к большому количеству данных, которые невозможно хранить в памяти одного компьютера. Значительные объемы данных не могут быть эффективно обработаны традиционными приложениями, которые используются в настоящее время.

Аналитика больших данных — это использование передовых аналитических методов для очень больших и разнообразных наборов данных, которые включают структурированные, полуструктурированные и неструктурированные данные из разных источников и в разных размерах от терабайтов до зеттабайтов.

Структурированные и неструктурированные данные. Это одна из главных характеристик больших данных, т. е. разнообразие. Структурированные данные — это, по сути, все, что можно поместить в реляционные базы данных и организовать таким образом, чтобы они были связаны с другими данными через таблицы. Неструктурированные данные — это все, что нельзя — сообщения электронной почты, сообщения в социальных сетях, записанная человеческая речь и т. д.

Сбор данных

Это процесс извлечения и обнаружения закономерностей в больших наборах данных с использованием методов на стыке машинного обучения, статистики и систем баз данных.

Обработка данных

также называется очистка данных, исправление данных или обработка данных – относится к множеству процессов, предназначенных для преобразования необработанных данных в более удобные для использования форматы.

  • Выявление пробелов в данных (например, пустые значения или пустые ячейки) и их заполнение или удаление.
  • Удаление данных, которые либо не нужны, либо не имеют отношения к анализу. Выявление крайних выбросов в данных и либо объяснение расхождений, либо их удаление, чтобы можно было провести анализ.
  • Объединение нескольких источников данных в один набор данных для анализа (создание фрейма данных из CSV-файла, преобразование фрейма данных в массив NumPy для выполнения математических операций и т. д.)

Визуализация данных

Это относится к дисциплине информационного дизайна. Это относится к графическому представлению информации с использованием визуальных элементов, таких как диаграммы, графики и карты.

Пример:

Создание гистограммы, гистограммы с помощью языка программирования (предпочтительно R или Python)

Приборная доска

Информационные панели – это инструмент визуализации данных, который объединяет все карты, графики, сведения и анализ в интерактивное окно, понятное даже пользователям, не являющимся техническими специалистами.

Используемые инструменты: TABLEAU, POWER BI, GOOGLE ANALYTICS и т. д.

История данных

Это практика построения повествования на основе данных и сопровождающих их визуализаций, помогающих передать контекст и значение данных мощным и убедительным образом.

Все инсайты, графики, созданные с помощью кода, демонстрируются с нарративом.

Для инструментов и лучшего понимания пройдите через это:

14 лучших инструментов для сторителлинга данных 2021

Бизнес-аналитика

Более старый термин, который стал обозначать извлечение полезной информации из бизнес-данных без использования статистических моделей или моделей машинного обучения (например, информационных панелей для визуализации ключевых показателей, запросов к базам данных).

Иллюстрированное изображение для понимания ключевых терминов

Искусственный интеллект

ИИ — это зонтичная дисциплина, которая охватывает все, что связано с тем, чтобы сделать машины умнее. Позволяет машинам думать без вмешательства человека.

Пример: роботы

Машинное обучение

ML относится к системе искусственного интеллекта, которая может самообучаться на основе алгоритма. Системы, которые со временем становятся все умнее и умнее без вмешательства человека, — это машинное обучение. Использует статистические алгоритмы обучения для создания интеллектуальных систем.

Например, Spotify предлагает песни в соответствии с предпочтениями пользователя или ранее прослушанной песней с помощью системы рекомендаций. Эти системы являются примером машинного обучения

Глубокое обучение

Глубокое обучение (DL) — это машинное обучение (ML), применяемое к большим наборам данных. Системы DL помогают компьютерной модели фильтровать входные данные через слои для прогнозирования и классификации информации. Глубокое обучение обрабатывает информацию так же, как человеческий мозг.

(часть нейронной сети относится к глубокому обучению)

Пример: автомобили без водителя