Создайте «реальную» среду Data Science дома

Моя 0$ «реальная» среда Data Science дома: база данных, ETL, аналитика данных, информационная панель, за 9 шагов.

В этом моем первом посте на Medium я хочу поделиться с вами способом создания «реальной» среды данных дома на основе тех же компонентов, которые большинство компаний используют для обработки своих данных. Конечно, в гораздо меньших масштабах и бесплатно.

Почему? Подобные фреймворки я использовал, когда готовился к собеседованиям при приеме на работу, чтобы узнать больше о новых задачах Data Science, отчетах, администрировании и разработке баз данных, а также для организации собственной работы.

Фреймворк, который я здесь представляю, — лучший из тех, что я когда-либо делал, с точки зрения возможностей и времени, необходимого для его создания (~ 40 минут). Тем не менее, мне потребовалось немного времени, чтобы понять, как правильно взаимодействовать с компонентами, поэтому здесь я напрямую объясняю, как заставить работать всю цепочку.

Содержание:

· Real-world Data environments
· My Real-world Data framework
· Database: MySQL1. Installation2. User configuration for R
· E.T.L. : Pentaho Data Integration
· Analytics: R (and RStudio)
· Reporting or Dashboarding: Tableau Public
· What’s next

Реальные данные среды

Как выглядят среды данных в «реальных» компаниях? Обычно они представляют собой сложную, а иногда и избыточную комбинацию различных инструментов. Но если вы посмотрите на основные функции, большинство из них можно свести всего к 4 столпам: хранение, обработка, анализ и принятие решений на основе данных.

В нашем контексте это означает следующие 4 компонента.

  • База данных
  • «Э.Т.Л.» инструмент
  • Инструмент для анализа данных и прогнозирования
  • Инструмент для создания отчетов и сводок

Мояреальная структура данных

Я решил использовать MySQL в качестве базы данных, Pentaho Data Integration в качестве ETL, R для анализа данных и Tableau Public. strong> для панели мониторинга и отчетности. Делая выбор, я выбрал инструменты, которые можно было бы использовать для максимально широкого круга целей:

  • MySQL — это не только отличная песочница для базы данных, где можно узнать о разработке, администрировании, оптимизации SQL и т. д. Он также может размещать приложения или веб-сайты (например, вы можете установить на него Wordpress).
  • Tableau Public — это бесплатная версия Tableau Desktop, которая очень востребована на рынке труда. Таким образом, узнавая все больше и больше об этом, вы можете протолкнуть свое резюме в поиск на основе тегов охотников за вакансиями. И этому легко научиться благодаря большому количеству бесплатных учебных материалов.
  • Pentaho — не самая распространенная ETL на рынке, но она редко бывает бесплатной. Плюс: у него есть некоторые возможности, такие как параллелизм данных, который можно использовать только с очень дорогим E.T.L. инструменты (например, IBM DataStage или Informatica). В любом случае, большинство E.T.L. Инструменты имеют очень схожий функционал: все они могут подключать мультиплатформенные базы данных и файлы, имеют множество встроенных функций, выполняют соединения и всевозможные преобразования данных. Таким образом, вы можете легко изучить основы с Pentaho и легко переключиться и изучить новый, приложив лишь небольшие усилия.
  • R — чрезвычайно мощный инструмент для интеллектуального анализа данных, профилирования, описательного, предсказательного и предписывающего анализа, в том числе благодаря огромному списку бесплатных пакетов: вы можете делать все, что угодно с прилично подготовленными данными: от простого анализа необработанных данных до самых сложных данных. Наука.

Приступим: в следующих разделах я опишу в 9 шагов, как установить и соединить вместе четыре компонента.

База данных: MySQL

1. Установка

Наша цель - установить сервер MySQL и рабочую станцию. Сервер — это фактическое ядро ​​базы данных, рабочая станция — это пользовательский интерфейс для разработки, запуска сценариев SQL и выполнения задач администрирования.

Вы можете загрузить установщик MySQL по следующей Ссылке.

После нажатия кнопки «Загрузить» отображается страница входа/создания учетной записи: на самом деле вам не нужно этого делать, просто воспользуйтесь ссылкой внизу «Нет, спасибо, просто начните загрузку».

Для руководства процессом установки вы можете обратиться к следующим видеороликам для Windows и Mac OS. Или хороший веб-гид здесь.

Просто не забудьте сохранить пароль root, который вы создали во время установки.

2. Конфигурация пользователя для R

Нам нужно создать пользователя с предложением «mysql_native_password», используя приведенный ниже сценарий, чтобы предоставить «R» доступ к базе данных позже в процессе.

Итак, откройте MySQL Workbench, создайте и запустите новый SQL с кодом ниже (в моем примере новый пользователь — «user_R», а его пароль — «pw _R")

СОЗДАТЬ ПОЛЬЗОВАТЕЛЯ ‘user_R’@’ localhost’, ИДЕНТИФИЦИРОВАННОГО С ПОМОЩЬЮ mysql_native_password BY ‘pw_R’;

ПРЕДОСТАВИТЬ ВСЕ НА *.* 'user_R'@'localhost';

3. Установите драйвер JDBC для MySql

Нам нужно установить коннектор JDBC, чтобы Pentaho мог подключаться к MySQL.

Скачайте его отсюда и установите.

Э.Т.Л. : Интеграция данных Pentaho

Чтобы настроить интеграцию данных Pentaho (PDI), вам необходимо установить две вещи: сам инструмент и среду java JDK.

4. Скачать Pentaho PDI

Скачать бесплатную версию Pentaho можно по этой ссылке: выберите свою ОС и нажмите кнопку Скачать.

Скачав архив размером ~ 1,6 ГБ, вы можете извлечь его: он содержит программу запуска Pentaho, поэтому вам не нужно ничего устанавливать в свою ОС.

5. Загрузите «Java JDK»

Для загрузки среды JDK вам необходимо воспользоваться этой ссылкой.

Примечание. Вам необходимо создать учетную запись Oracle (бесплатно).

6. Запустить Pentaho PDI

Откройте папку Pentaho, которую вы только что извлекли, и используйте исполняемый файл Spoon для запуска инструмента (например, «Spoon.bat» для Windows). Он должен начаться плавно.

Аналитика: R (и RStudio)

7. Скачайте и установите R

Вы можете скачать и установить R здесь.

Хотя это и не обязательно, я рекомендую также установить RStudio отсюда. Это удобная бесплатная среда разработки для R с удобной консолью для запуска вашего кода.

Их установка должна быть простой, но на всякий случай вот несколько хороших руководств для Mac и Windows:





8. Подключить R к MySQL

Чтобы подключить R к базе данных, вам нужно использовать пользователя, созданного в разделе «Конфигурация пользователя для R» выше.

Итак, ниже приведен некоторый (и не единственный возможный) код R, который вы можете запустить, чтобы подготовить соединение с базой данных и прочитать данные таблицы в R. Если вы предпочитаете, как и я, вы можете запустить код в RStudio:

#Подготовьте подключение, установив пакет «RMariaDB»
install.packages(«RMariaDB»)
library(RMariaDB)

#Подключение к базе данных (в данном примере «test_1», с пользователем «user_R» и паролем «pw_R»)
mydb‹-dbConnect(RMariaDB::MariaDB(), user='user_R', password='pw_R', dbname='test_1', host='localhost')

#Запросите таблицу базы данных с именем «calendar» и импортируйте данные в R
ds_calendar= dbSendQuery(mydb, «SELECT * FROM test_1.calendar»)
data = d1 ‹- dbFetch(ds_calendar, п = 10)

Отчетность или информационная панель: Tableau Public

Скачайте его отсюда и установите. Вам также потребуется создать логин Tableau Public, необходимый для сохранения ваших разработок.

Tableau Public позволяет вам разрабатывать любые панели мониторинга или отчеты, которые вам нравятся, практически со всеми возможностями лицензионной версии «Tableau Desktop». Однако общедоступная версия имеет два основных ограничения:

  • вы можете сохранять свои информационные панели только в своей онлайн-учетной записи Tableau Public, а не локально.
  • типы возможных источников данных весьма ограничены.

В нашем контексте эти ограничения не являются проблемой: мы можем использовать текстовые файлыв качестве источников данных. Самый простой способ создать сводные панели Tableau на основе данных MySQL, Pentaho и R — экспортировать текстовый файл .csv куда угодно локально и использовать его в качестве источника данных в Tableau Public.

Что дальше

В этом моем первом посте на Medium я объяснил, как бесплатно создать небольшую, но полную среду обработки данных (MySql-Pentaho-R-Tableau) с компонентами того же типа, которые используют реальные компании, и которые без проблем работают на обычном ПК. Мак.

Что ты можешь сделать с этим? В зависимости от того, какие области науки о данных вас интересуют, фреймворк может быть очень полезен как для начинающих, так и для экспертов в области науки о данных. Некоторые идеи: для соревнований Kaggle или для создания самодельных приложений Business Intelligence и Data Warehouse. На всякий случай вы можете найти ниже несколько очень понятных постов, чтобы узнать больше об этих действиях.





Надеюсь, вам понравится мой фреймворк Data Science.

Подпишитесь на мою информационную рассылку «Sharing Data Knowledge.»

Если вы хотите подписаться на Medium, не стесняйтесь использовать мою реферальную ссылку https://medium.com/@maw-ferrari/membership: это стоит для вас столько же, но косвенно способствует моим историям.