Рабочий процесс

Введение в науку о данных и аналитику

Что такое наука о данных?

Наука о данных — это междисциплинарный подход к извлечению полезных идей из больших и постоянно растущих объемов данных, собираемых и создаваемых современными организациями. Наука о данных включает в себя подготовку данных для анализа и обработки, выполнение расширенного анализа данных и представление результатов для выявления закономерностей и предоставления заинтересованным сторонам возможности делать обоснованные выводы.

Наука о данных: основные компоненты

– Архитектура данных

- Машинное обучение

– Аналитика

Машинное обучение

  • Машинное обучение — это программирование компьютеров для оптимизации критерия производительности с использованием примеров данных или прошлого опыта.
  • Другими словами, мы хотели бы, чтобы компьютер (машина) автоматически извлекал алгоритм из данных (примеров). Это не что иное, как обучение
  • Обучение используется, когда:

- Человеческий опыт не существует (навигация на Марсе)

– Люди не могут объяснить свой опыт (распознавание речи)

– Изменение решения во времени (маршрутизация в компьютерной сети)

– Решение необходимо адаптировать к конкретным случаям (биометрия пользователя)

Аналитика

• Аналитика — это обнаружение и передача значимых закономерностей в данных.

• Аналитика, особенно ценная в областях, богатых записанной информацией, опирается на одновременное применение статистики, компьютерного программирования и исследования операций для количественной оценки производительности.

• Аналитика часто предпочитает визуализацию данных для передачи информации.

• Аналитика данных используется во многих отраслях, позволяя компаниям и организациям принимать более эффективные бизнес-решения.

Большие данные позволяют использовать эти необработанные данные, объединяя структурированные данные, такие как данные о продажах и транзакциях, с неструктурированными данными, такими как комментарии в социальных сетях, аудио и видео, в единую аналитическую модель.

Процесс обработки данных

Набор навыков специалиста по данным

Data Scientist : Человек, который лучше разбирается в статистике, чем любой инженер-программист, и лучше в разработке программного обеспечения, чем любой статистик.

Типы Data Scientist

Люди, работающие с данными, — это специалисты по обработке и анализу данных, ориентированные на получение прибыли. Они лидеры, менеджеры и предприниматели, но с техническими наклонностями. Обычный образовательный путь - это инженерная степень в сочетании со степенью MBA.

Креативщики данных – это мастера на все руки, способные работать с широким спектром данных и инструментов. Они могут считать себя художниками или хакерами и преуспевать в визуализации и технологиях с открытым исходным кодом.

Разработчики данных сосредоточены на написании программного обеспечения для выполнения аналитических, статистических задач и задач машинного обучения, часто в производственной среде. Они часто имеют ученые степени в области компьютерных наук и часто работают с так называемыми «большими данными».

Исследователи данных применяют свою научную подготовку, а также инструменты и методы, которым они научились в академических кругах, к организационным данным. У них могут быть докторские степени, а их творческое применение математических инструментов дает ценные идеи и продукты.