ЧТО ТАКОЕ ДАННЫЕ?

Что такое наука о данных? Просто придерживаться формального определения «извлечение полезных идей из необработанных данных» было бы чрезмерным упрощением этой постоянно расширяющейся области. Ежедневно создается около 2,5 квинтиллионов байт данных. Он генерируется с головокружительной скоростью, вытекая из десятков подключенных устройств, которыми мы пользуемся каждый день, и не показывает никаких признаков замедления.

Что мы делаем со всеми этими данными? Как мы это используем? Каковы его реальные приложения? Эти вопросы являются областью науки о данных.

Перегрузка данных, пришедшая с бумом больших данных, породила новые требования к их хранению, обработке и т. д. Hadoop и другие фреймворки успешно решили проблему хранения данных, теперь акцент сместился на обработку этих данных. И наука о данных — это ответ. Эта область развивается так быстро и революционизирует многие отрасли, принося неисчислимые преимущества в бизнесе, исследованиях и нашей повседневной жизни. Ваш наиболее часто посещаемый маршрут, ваш недавний поиск ближайших ресторанов в Google, ваша публикация в социальных сетях о месте вашего отдыха и даже данные с вашего Fitbit — все это способствует этой революции данных. Погружение в эти большие пулы данных в поисках связей и закономерностей и предоставление нам новых продуктов, предоставление прорывных идей и улучшение нашей жизни — вот для чего предназначена наука о данных. Компании, которые знают, как работает наука о данных, используют этот непрерывный поток данных в своих интересах, используя его возможности. Чтобы лучше понять науку о данных, давайте посмотрим, как работает наука о данных.

Как работает наука о данных?

Наука о данных включает в себя множество дисциплин и знаний в областях, позволяющих получить целостный, тщательный и точный взгляд на необработанные данные. Чтобы эффективно просеивать озера данных и сообщать только самую важную часть, люди, работающие с данными, используют свои навыки во всем, от инженерии данных, математики, статистики, передовых вычислений до визуализации.

Люди, работающие с данными, также в значительной степени полагаются на искусственный интеллект, особенно на его подобласти машинного и глубокого обучения, для создания моделей и прогнозирования с использованием алгоритмов и других методов.

Жизненный цикл науки о данных можно описать в 6 шагов:

1. Захват — сбор данных, ввод данных, прием сигнала, извлечение данных.

2. Поддерживать — хранение данных, очистка данных, подготовка данных, обработка данных, архитектура данных.

3. Процесс — интеллектуальный анализ данных, моделирование данных, обобщение данных.

4. Анализ — Исследовательский анализ, Предиктивный анализ, Регрессия, Интеллектуальный анализ текста, Качественный анализ.

5. Общение — отчеты о данных, визуализация данных, бизнес-аналитика, принятие решений.

Все эти этапы требуют разных методов, программ и, в некоторых случаях, наборов навыков. Если бы мы могли сократить наборы навыков, необходимые для этого, до 3, приведенная ниже диаграмма Венна была бы идеальным способом объяснить:

Итак, наука о данных — это пересечение трех вещей: статистики, кодирования и бизнеса. Конечно, чтобы в долгосрочной перспективе добиться успеха в науке о данных, вам необходимо развить другие межличностные навыки, такие как:навыки презентации,навыки управления проектамиили навыки работы с людьми.