Итак, вы хотите стать специалистом по данным?

НАЧАТЬ С PYTHON

Итак, вы хотите стать специалистом по данным?

Что за * &% $ вам мешает? Вот как начать!

Данные всегда были ключом к принятию информированных и, в конечном итоге, правильных решений. Но за последнее десятилетие генерация данных и, как следствие, их использование стремительно выросли, как никогда раньше. Это явление делает информационную грамотность и анализ данных типичным набором навыков буквально для всех, кто работает в количественных дисциплинах. И давайте посмотрим правде в глаза, большинство рабочих мест постоянно становятся все более сложными и количественными. Потому что, в конце концов, рутинная рутинная работа передается машинам быстрее и лучше, чем мы.

Вы можете подумать, что ваши тщательно отточенные навыки работы с Excel помогут вам выйти на пенсию. Что ж, мне неприятно рассказывать вам это: но если ваше 60-летие не скоро, вы, скорее всего, ошибаетесь.

Вы, наверное, думали в тот или иной момент:

Я действительно хотел бы изучить Python, но даже не знаю, с чего начать!

Говорят, что первый шаг всегда самый трудный. Но продолжайте, и я обещаю вам, что через 15 минут вы не только напишете свои первые строчки кода, но и узнаете кое-что о счастье в процессе!

Предупреждение: для простоты я пропущу и очень упрощаю темы. Однако цель состоит не в том, чтобы сделать вас полноценным программистом - по крайней мере, пока - а, скорее, в том, чтобы вы начали!

1. Настройка Anaconda

Anaconda - это бесплатный и открытый дистрибутив языков программирования Python и R для научных вычислений (наука о данных, приложения машинное обучение, крупномасштабные данные обработки, предиктивной аналитики и т. д.), что призвано упростить управление пакетами и развертывание. Версии пакетов управляются системой управления пакетами conda. Дистрибутив Anaconda используется более чем 15 миллионами пользователей и включает более 1500 популярных пакетов для анализа данных, подходящих для Windows, Linux и MacOS.

Очень длинный способ сказать: «Anaconda устанавливает Python и почти все его основные пакеты».

Я расскажу вам, как установить Anaconda на Windows / Mac, но это настолько просто, что снимки экрана даже не нужны. Тем не менее, они не ошибаются. Настроить Anaconda быстро и легко!

Windows:

Поэтому я очистил свой ржавый (~ 10-летний ноутбук) и установил на него самую последнюю версию Anaconda. Щелкните, щелкните, щелкните - и готово! Шаг 6 занял около 10 минут, но я виню свой ноутбук. Установка, несомненно, будет для вас быстрее. Скачайте Anaconda здесь (получите версию 3.7)! Здесь нечего бояться.

Mac:

Я удалил Anaconda, загрузил самую последнюю версию отсюда (получите версию 3.7) и переустановил ее. Никакой икоты, и весь процесс занял примерно 2 минуты.

Unix / Linux:

Что ты вообще здесь делаешь? Навигация в вашей ОС намного сложнее, чем могла бы быть Anaconda!

2. Запуск вашего первого ноутбука

После установки Anaconda откройте Anaconda Navigator. Вы почти там!

Нажмите на Блокнот (второй слева вверху). Откроется новая вкладка браузера, которая выглядит примерно так:

3. Начните кодирование.

Импорт

Начнем с импорта. Введите в свой блокнот следующее.

Импорт сообщает ноутбуку, какие еще модули (наборы функций) нам понадобятся. Pandas для обработки данных, numpy для научных вычислений, datetime для, как вы уже догадались, функций, связанных с датой и временем, matplotlib и seaborn для построения графиков. Часть as XYZ определяет сокращенное имя модуля (чтобы вместо pandas мы могли ссылаться на модуль, просто набрав pd).

Теперь запустите ячейку, нажав кнопку запуска или shift + return.

Бам! Ошибка, можно подумать, хорошее начало.

Я сделал это специально, потому что ошибки - это действительно хорошо, и вам должно быть комфортно с ними. Очень важно по-настоящему читать и понимать ошибки, чтобы исправлять их значимым образом. Слишком часто люди теряют рассудок, сталкиваясь с ошибкой, и пробуют разные вещи, пока не добьются успеха или не сдадутся, разочаровавшись.
Например, этот ModuleNotFoundError довольно ясно говорит нам, что не существует модуля с именем seaborn. Джапп, это мы можем решить. Похоже, модуль не поставляется с Anaconda. Давайте исправим это, запустив

!pip install seaborn

в новой камере. Затем перезапустите ячейку импорта.

Замечательно!

Внимание: всякий раз, когда я пишу «выполнить команду в записной книжке», это означает, что вы должны создать новую ячейку, ввести в ней команду и запустить ячейку.

Получите данные. В конце концов, это называется Data Science

Посмотрим на некоторые данные из World Happiness Report 2019. Я добавил континенты к данным, очистив страницу Википедии. Я также включил код для парсинга в загружаемые файлы, но оставлю выяснение того, как он работает (это всего 15 строк кода), в качестве упражнения для любопытного читателя.
GitHub Repo содержит данные и код . Если вы не знакомы с GitHub, вы также можете загрузить упакованный zip-файл по этой ссылке! Распакуйте файл и переместите содержимое (особенно thehappiness_with_continent.csv) в ту же папку, что и ваш Jupyter Notebook!

Загрузите данные (запустите в блокноте следующую команду):

data = pd.read_csv('happiness_with_continent.csv')

Проверьте данные (запустите в блокноте следующую команду):

Круто! Давайте проведем анализ:

Здесь мы сделали пару вещей:

Синий: groupby создает несколько групп для указанных столбцов. Здесь, например, мы смотрим на каждую комбинацию года / континента в наборе данных. Если вы переходите из Excel, воспринимайте его как строки в сводной таблице.
Фиолетовый: выбираем интересующий столбец, т.е. в нашем случае Life Ladder. Если вы работаете с Excel, считайте его столбцами сводной таблицы.
Зеленый: Здесь мы применяем функцию mean. Есть и другие функции, такие как max, min, sum, count и многие другие. В какой-то момент вы также можете определить свои собственные функции. Если вы используете Excel, считайте его значениями в сводной таблице.
Оранжевый: reset_index выполняет то, что говорит, сбрасывает индекс, то есть выравнивает таблицу и удаляет группы.

Вы уже знаете, что делает sample из предыдущего раздела. Для простоты мы присваиваем результат всего выражения новой переменной с именем grouped_by_year_and_continent, чтобы использовать ее для дальнейшего построения графика.

Визуализируйте данные

Выполните следующий код, чтобы сгенерировать визуализацию:

Довольно круто, да? И я думаю, что вы, вероятно, сможете понять, что здесь происходит, просто прочитав код. Мне нравится простота Python!

Хорошо, но это не было бы Data Science, если бы не было гистограмм. Итак, давайте создадим. Мне любопытно лучше понять изменчивость на континенте. Давайте сгруппируем данные по континентам и странам и возьмем среднее значение по времени. Судя по тому, что мы сделали ранее, это не должно быть для вас внове.