Самая важная часть науки о данных

Дейта будет говорить с вами, если вы готовы слушать.
– Джим Бергесон

Данные можно назвать Богом. Все имеет свою валидацию только благодаря данным. Вы не сможете претендовать на свое имущество, вещи, если у вас нет данных, подтверждающих это. Даже вы можете не подтвердить свою личность в отсутствие данных. Что бы мы ни делали, покупая или продавая, мы создаем данные. Разве это не удивительно?

Сегодня нам нужны данные так же, как нам нужен кислород. Данные стали одной из самых важных вещей в нашей жизни. В области науки о данных и искусственного интеллекта мы должны знать наши данные. Давайте узнаем об этом.

Что такое данные?

Данные — это набор фактической информации, такой как числа, измерения, описания или наблюдения. Это могут быть числа, текст, изображения, аудио, видео, графики, таблицы, шаблоны и т. д. Компании анализируют данные своих клиентов и клиентов, чтобы понять их поведение.

Зачем нам нужны Данные?

Данные могут предоставить нам информацию и ценную информацию о поведении определенной категории людей, сообщества или организации и т. д. Крупные компании, такие как Google, Facebook, Amazon и т. д., считывают наши шаблоны с помощью данных, чтобы узнать наши потребности, ситуации, настроение, образ жизни, чтобы они могли порекомендовать похожие продукты, музыку, видео, которые соответствуют нашему выбору.

Типы данных

В зависимости от формата данные можно разделить на две группы:
1. Структурированные данные
2. Неструктурированные данные

Структурированные данные

Данные, имеющие предопределенный формат, называются структурированными данными. Структуры Данные обычно хранятся в СУБД. Структурированные данные обычно состоят из чисел или текста. Структурированные данные требуют меньше времени для обработки по сравнению с неструктурированными данными. Структурированные данные бывают двух типов:
а. Качественные данные
б. Количественные данные

Качественные данные

Качественные данные также известны как категориальные данные. Качественные данные представляют собой характеристики объекта; например, пол, семейное положение, ранг и т. д.

В зависимости от количества значений в категории категориальные переменные подразделяются на два типа:
Когда категориальная переменная имеет ровно два значения, она называется бинарной или дихотомической категориальной переменной. ; например,,мужчина/женщина, правда/ложь, да/нет и т. д. Если у нее более двух категорий, она называется политомической категориальной переменной; например, рейтинг: первый/второй/третий, семейное положение: женат/незамужем/живет отдельно и т. д.

На основе шкал измерения категориальные переменные снова подразделяются на следующие виды:

Номинальные. Категориальная переменная, в которой порядок данных не имеет значения, называется Номинальными данными. например, пол, цвет волос, логические значения, группы крови и т. д.
ПРИМЕЧАНИЕ. При желании мы можем закодировать номинальные переменные числами, но порядок произвольный, и любой такие вычисления, как вычисление среднего значения, медианы или стандартного отклонения, будут бессмысленными.

Порядковый номер. Категориальная переменная, для которой важен порядок данных, называется порядковым номером. например, рейтинг, оценки, уровни, этажи и т. д.

Интервал. В шкалах интервалов важны как порядок, так и точные различия между значениями. например, температура, значение pH, кредитный рейтинг.

Отношение. Шкалы отношений содержат порядок, точные значения и абсолютный ноль. Следовательно, он используется как для описательной, так и для логической статистики. например, плотность, скорость и т. д.

Количественные данные

Данные, которые могут быть выражены в виде чисел и имеют смысл измерения, называются количественными данными. Он также известен как числовые данные. В зависимости от значений числовые данные делятся на две группы:

Дискретные данные. Данные, которые можно считать, называются дискретными данными. Он может принимать как числовые, так и категориальные значения, в зависимости от использования. Переменная, представляющая дискретный набор данных, называется дискретной переменной. Дискретные данные всегда имеют фиксированный момент времени. например, возраст, количество учеников в классе, количество планет и т. д.

Непрерывные данные. Переменная с бесконечным числом числовых значений в определенном диапазоне называется непрерывными значениями. например, вес, рост и т. д.
ПРИМЕЧАНИЕ. Процентные значения также являются непрерывными данными.

Неструктурированные данные

Любые данные, хранящиеся в собственном формате, называются неструктурированными данными. Это может быть изображение, аудио, видео или сообщение чата. Требуется дополнительная предварительная обработка данных, чтобы использовать неструктурированные данные для анализа.

Структурированные данные против неструктурированных данных

Сбор данных

Чтобы провести анализ, самое главное, что нам нужно, это собрать данные. Сбор данных может осуществляться несколькими способами; давайте посмотрим на некоторые из них.

Первичные исходные данные. В этом методе сбора данных мы вручную генерируем необработанные данные. Это можно сделать с помощью онлайн-опросов, интервью, наблюдений и т. д. У использования необработанных данных есть свои преимущества и недостатки.
Преимущество:
1. Мы можем получить именно ту информацию, которая необходима.
2. Надежные и оригинальные данные.
3. Нет проблем с разрешением.
4. Раньше мы получали актуальные и свежие данные.
Недостаток:
1. Требует много времени
> 2. Дорого
3. Требует дополнительной очистки и модификации перед анализом.

Вторичные исходные данные. В этом методе сбора данных мы используем сохраненные данные. Мы используем базы данных или веб-сайты с открытым исходным кодом для сбора данных и использования их для анализа.
Преимущество:
1. Не требует много времени.
2. Легкий доступ.
3. Общий формат в таблицы.
Недостаток:
1. Требуется разрешение на доступ.
2. Не очень надежный.

Очистка веб-страниц. В этом методе сбора данных мы извлекаем данные с веб-страниц. С помощью некоторых библиотек и небольшого знания HTML можно легко собирать данные с веб-сайтов. Обычно мы используем веб-скрапинг в обзорах и анализе комментариев. Библиотеки Python, используемые для парсинга веб-страниц: request, BeautifulSoup, Pandas, Selenium.
ПРИМЕЧАНИЕ. Не все веб-сайты поддерживают парсинг веб-страниц. Вам необходимо разрешение на сбор данных с этих веб-сайтов или веб-страниц. Кража данных является преступлением.

Формат файлов

Данные хранятся в нескольких форматах. Давайте рассмотрим некоторые из наиболее часто используемых файлов данных.
1. Файлы CSV: файл значений, разделенных запятыми, представляет собой обычный текстовый файл, в котором значения строк разделены запятыми. Каждая строка файла представляет собой запись данных, а запятые разделяют запись на разные поля. Файлы CSV обычно встречаются в электронных таблицах и базах данных.
2. Файлы XLSX: файлы MS Excel хранятся в формате xlsx. В этих файлах значения хранятся в строках и столбцах. Файлы XLSX также обычно встречаются в электронных таблицах и базах данных.
3. Файлы TXT: текстовые файлы хранятся в формате txt. В этом типе файла мы храним текстовые данные.
4. Файлы JSON: JSON означает нотацию объектов JavaScript (JSON). Это легкие текстовые файлы открытого стандарта, предназначенные для обмена данными через Интернет.
Наиболее распространенными файлами являются изображения, PDF-файлы, HTML и т. д.

EndNote

Это было базовое понимание данных, которое вы должны знать, прежде чем изучать науку о данных. Понимание данных облегчает нам работу. Спасибо, что были со мной до сих пор.

Ссылки

  • Практический исследовательский анализ данных с помощью Python [книга] Суреш Кумар Мухия и Усман Ахмед
  • Статистика для машинного обучения [Книга] Пратапа Дангети
  • Страницы Википедии по парсингу, данным.