В этой статье я раскрою что, почему и как в науке о данных. К концу этой статьи вы будете лучше понимать, как данные используются вокруг вас и как вы можете использовать данные.

Если мы погуглим «Что такое наука о данных?», мы увидим огромное количество запутанной информации.

Но наука о данных на самом деле проста. Это набор методологий для сбора тысяч форм данных, доступных нам сегодня, и использования их для получения осмысленных выводов. Данные собираются вокруг нас. Каждый лайк, клик, электронное письмо, считывание кредитной карты или твит в Твиттере — это новый фрагмент данных, который можно использовать для лучшего описания настоящего или лучшего предсказания будущего.

Итак, что могут сделать данные? Это может помочь обнаружить аномальные события, такие как мошеннические покупки. Если у нас есть данные о том, что произошло ранее, мы можем повысить эффективность, автоматически обнаруживая новое событие, которое является неожиданным или ненормальным. Данные также могут диагностировать причины наблюдаемых событий и поведения, например, вашу активность в Spotify или Netflix. Вместо того, чтобы определять корреляции между небольшим количеством событий, методы науки о данных помогают нам понять сложные системы со многими возможными причинами. Наконец, данные могут предсказывать будущие события, например прогнозировать размер населения. Мы можем использовать новые методы, чтобы учитывать различные причины и прогнозировать возможные последствия. Кроме того, мы можем математически оценить вероятность нашего прогноза, чтобы прояснить наш уровень неопределенности.

Рабочий процесс науки о данных

Рабочий процесс науки о данных выглядит следующим образом: сбор и хранение данных — подготовка данных — исследование и визуализация — эксперимент и прогнозирование.

Итак, как мы начнем использовать данные? Как упоминалось выше, в науке о данных у нас обычно есть четыре шага к любому проекту. Во-первых, мы собираем данные из многих источников, таких как опросы, результаты веб-трафика, сообщения в социальных сетях с геотегами и финансовые транзакции. После сбора мы храним эти данные безопасным и доступным способом. На данный момент данные находятся в необработанном виде, поэтому следующим шагом является подготовка данных. Сюда входит «очистка данных», например поиск отсутствующих или повторяющихся значений, а также преобразование данных в более организованный формат. Затем мы исследуем и визуализируем очищенные данные. Это может включать создание информационных панелей для отслеживания изменения данных с течением времени или сравнение двух наборов данных. Наконец, мы проводим эксперименты и прогнозы на данных. Например, это может включать в себя создание системы, которая прогнозирует изменения температуры, или выполнение теста, чтобы определить, какая веб-страница привлекает больше клиентов.

ПРИМЕНЕНИЕ НАУКИ О ДАННЫХ

Поскольку мы уже знаем рабочий процесс науки о данных, давайте сделаем еще один шаг, узнав о реальном применении науки о данных. но подождите, давайте быстро углубимся в три интересные области науки о данных: традиционное машинное обучение, Интернет вещей и глубокое обучение. чтобы лучше понять вещи, давайте рассмотрим обнаружение мошенничества в качестве примера:

Предположим, вы работаете в области обнаружения мошенничества в крупном банке. Вы хотите использовать данные для определения вероятности того, что транзакция является поддельной.

Чтобы ответить на этот вопрос, вы можете начать со сбора информации о каждой покупке, такой как сумма, дата, место, тип покупки и адрес держателя карты. Вам понадобится много примеров транзакций, включая эту информацию, а также ярлык, который сообщает вам, является ли каждая транзакция действительной или мошеннической. К счастью, у вас, вероятно, есть эта информация в базе данных. Эти записи называются «данными для обучения» и используются для построения алгоритма. Каждый раз, когда происходит новая транзакция, вы сообщаете своему алгоритму информацию, такую ​​как сумма и дата, и он отвечает на первоначальный вопрос: какова вероятность того, что эта транзакция является мошеннической?

Что нам нужно для машинного обучения?

Прежде чем мы сможем ответить на этот вопрос, во-первых, проблема науки о данных начинается с четко определенного вопроса. Наш вопрос звучал так: «Какова вероятность того, что эта транзакция является мошеннической?» Далее нам нужны данные для анализа. У нас есть месяцы старых транзакций по кредитным картам и связанные с ними метаданные, такие как дата и местоположение, которые уже были идентифицированы как мошеннические или действительные. Наконец, нам нужны дополнительные данные каждый раз, когда мы хотим сделать новый прогноз. Нам нужно иметь один и тот же тип информации о каждой новой покупке, чтобы мы могли пометить ее как «мошенническую» или «действительную».

Интернет вещей (IoT)

Ваши смарт-часы являются частью быстрорастущей области под названием «Интернет вещей», также известной как IoT, которая часто сочетается с наукой о данных. IoT относится к гаджетам, которые не являются стандартными компьютерами, но все же имеют возможность передавать данные. Сюда входят смарт-часы, подключенные к Интернету системы домашней безопасности, электронные системы сбора платы за проезд, системы управления энергопотреблением зданий и многое, многое другое. Данные Интернета вещей — отличный ресурс для проектов по науке о данных!

Глубокое обучение

Нам нужны более продвинутые алгоритмы из области машинного обучения, называемой глубоким обучением. В глубоком обучении несколько слоев мини-алгоритмов, называемых «нейронами», работают вместе, чтобы делать сложные выводы. Глубокое обучение требует гораздо больше обучающих данных, чем традиционная модель машинного обучения, но также может изучать отношения, которые традиционные модели не могут. Глубокое обучение используется для решения проблем с интенсивным использованием данных, таких как классификация изображений или понимание языка.

РОЛИ И ИНСТРУМЕНТЫ НАУКИ О ДАННЫХ.

Как правило, есть четыре профессии: инженер данных, аналитик данных, специалист по данным и специалист по машинному обучению. Давайте изучим каждый из них.

Инженер данных

Инженеры данных контролируют поток данных: они создают собственные конвейеры данных и системы хранения. Они проектируют инфраструктуру таким образом, чтобы данные не только собирались, но и легко получали и обрабатывали. В рабочем процессе обработки данных основное внимание уделяется первому этапу: сбору и хранению данных.

Инструменты обработки данных

Инженеры данных владеют SQL, который они используют для хранения и организации данных. Они также используют один из следующих языков программирования, таких как Java, Scala или Python, для обработки данных. Они используют Shell в командной строке для автоматизации и выполнения задач. Наконец, инженерам данных сейчас как никогда необходимо уметь работать с облачными вычислениями, чтобы получать и хранить большие объемы данных.

Аналитик данных

Аналитики данных описывают настоящее через данные. Они делают это, исследуя данные и создавая визуализации и информационные панели. Для выполнения этих задач им часто приходится сначала очищать данные. У аналитиков меньше опыта программирования и статистики, чем у других должностей. В рабочем процессе основное внимание уделяется двум промежуточным этапам: подготовке данных, исследованию и визуализации.

Инструменты анализа данных

Аналитики данных используют SQL, тот же язык, который используют инженеры данных, для запроса данных. В то время как инженеры данных создают и настраивают решения для хранения SQL, аналитики используют существующие базы данных для извлечения и объединения данных, необходимых для их анализа. Аналитики данных используют электронные таблицы для выполнения простого анализа небольших объемов данных. Аналитики также используют бизнес-аналитику или инструменты бизнес-аналитики, такие как Tableau, Power BI или Looker, для создания информационных панелей и обмена результатами анализа. Более продвинутым аналитикам данных может быть удобно использовать Python или R для очистки и анализа данных.

Специалист по данным

Специалисты по данным имеют большой опыт работы со статистикой, что позволяет им находить новые идеи на основе данных, а не только описывать данные. Они также используют традиционное машинное обучение для прогнозирования и прогнозирования. В рамках рабочего процесса основное внимание уделяется последним трем этапам: подготовке, исследованию и визуализации данных, а также экспериментированию и прогнозированию.

Инструменты для специалистов по данным

Подобно аналитикам, специалисты по обработке и анализу данных хорошо разбираются в SQL. Специалисты по данным должны владеть как минимум Python на R. В рамках этих языков они используют популярные библиотеки для обработки данных, такие как pandas или tidyverse. Эти библиотеки содержат повторно используемый код для общих задач обработки данных.

Ученый по машинному обучению

Специалисты по машинному обучению похожи на специалистов по данным, но специализируются на машинном обучении. Машинное обучение, пожалуй, самая интересная часть науки о данных; он используется для экстраполяции того, что может быть правдой, из того, что мы уже знаем. Эти ученые используют обучающие данные для классификации больших, нестандартных данных, будь то классификация изображений, содержащих автомобиль, или создание чат-бота. Они выходят за рамки традиционного машинного обучения с глубоким обучением. В рамках рабочего процесса они выполняют последние три этапа, уделяя особое внимание прогнозированию.

Инструменты машинного обучения

Специалисты по машинному обучению используют Python или R для создания своих прогностических моделей. В рамках этих языков они используют популярные библиотеки машинного обучения, такие как TensorFlow, для запуска мощных алгоритмов глубокого обучения.

Увидеть все эти инструменты и языки может быть пугающе, но их не так сложно выучить, как разговорные языки. Если вы знаете английский язык, вам могут потребоваться годы, чтобы выучить французский. Языки программирования больше похожи на электроинструменты. Если вы знаете, как пользоваться электродрелью, вы не обязательно умеете пользоваться электрической пилой, но вы можете научиться, немного потренировавшись!

вам может быть интересно, с чего начать свою карьеру в области данных, поскольку вы можете быть заинтересованы в одной из упомянутых выше карьер или хотите получить больше знаний по определенному термину, вы можете легко нажать здесь, чтобы начать.

Это конец статьи, спасибо за прочтение.