Юпитер = Юлия + Python + R

Если вы работаете специалистом по обработке данных, вы, вероятно, ежедневно записываете полный процесс анализа, почти так же, как другие ученые используют лабораторный журнал для записи тестов, прогресса, результатов и выводов. Какие инструменты вы используете для того же? Я использую Jupyter Notebook каждый день, позвольте мне вкратце познакомить вас с ним.

  • Что такое блокнот Jupyter?
  • Почему это полезно для анализа данных.
  • Каковы особенности Jupyter Notebook?
  • Выполняйте простой анализ данных в машинном обучении.

Введение в записные книжки Jupyter

Что такое блокнот Jupyter?

Jupyter Project¹ - это побочный проект из проекта I-Python, который изначально предоставлял интерфейс только для языка Python и продолжает предоставлять каноническое ядро ​​Python для Jupyter. Само название Jupyter образовано от сочетания языков Julia, Python и R.

Почему это полезно?

Project Jupyter существует для разработки платформы с открытым исходным кодом, открытых стандартов и сервисов для интерактивных вычислений на многих языках программирования, таких как, например, Python, R и MATLAB.
Jupyter доступен как веб-приложение в облачной экосистеме. из ряда мест, таких как Облако Сатурна². Его также можно использовать локально в самых разных установках. Которые содержат живой код, уравнения, рисунки, интерактивные приложения и текст Markdown.

Особенности ноутбуков Jupyter?

Блокнот Jupyter - это, по сути, файл JSON с рядом аннотаций. Блокнот состоит из трех основных частей.

  • Метаданные: словарь определений, используемый для настройки и отображения записной книжки.
  • Формат записной книжки: номера версий программного обеспечения, использованного для создания записной книжки. Номер версии используется для обратной совместимости.
  • Список ячеек: есть три разных типа ячеек - уценка (отображение), код (для возбуждения) и вывод.

Как мы будем работать с ноутбуками Jupyter?

Есть четыре следующих шага.

  • Первый шаг: создайте новую записную книжку для анализа данных.
  • Второй шаг: добавьте шаги анализа, кодирование и выходные данные.
  • Третий шаг: окружите свой анализ организационной разметкой и разметкой презентации, чтобы передать всю историю.
  • Последний шаг: затем интерактивные записные книжки будут использоваться другими пользователями, изменяя параметры и данные, чтобы отметить влияние их изменений.

Получение ноутбуков Jupyter с Saturn Cloud

Один из самых быстрых способов получить Jupyter Notebooks - зарегистрировать учетную запись в Saturn Cloud. Он позволяет быстро развернуть записные книжки Jupyter в облаке и масштабировать их в соответствии с вашими потребностями.

  • Он развертывается в вашем облаке, поэтому нет необходимости переносить ваши данные. Используйте всю экосистему Python через Jupyter.
  • Легко создавайте среды и импортируйте пакеты (Pandas, NumPy, SciPy и т. Д.).
  • Вы можете публиковать записные книжки и легко сотрудничать на облачном Jupyter.
  • Масштабируемость Dask от ноутбука до сервера и кластера.

См. Далее: https://www.saturncloud.io

Можем ли мы преобразовать записную книжку Jupyter в сценарий Python?

Да, вы можете преобразовать блокнот Jupyter в скрипт Python. Это эквивалентно копированию и вставке содержимого каждого блока кода (ячейки) в один файл .py. Разделы уценки также включены в качестве комментариев.

Преобразование можно выполнить в командной строке следующим образом.

jupyter nbconvert --to=python notebook-name.ipynb

Пример использования Jupyter Notebooks для ML

Допустим, вы врач, оцениваете данные для тысячи человек и прогнозируете, может ли кто-нибудь заразиться коронавирусом.

Мы будем шаг за шагом оценивать наш алгоритм, вычисляя такие показатели, как TP, TN, FP, FN, TPR, TNR, PPV, NPV, FPR и ACC. Предположим, что вы знакомы с этими показателями (если нет, читайте дальше здесь⁴).

Прежде чем мы попытаемся оценить наши алгоритмы, есть две вещи.

  • Что мы прогнозируем: y_pred.
  • Какой результат получаем: y_true.

Мы создаем новый файл Jupiter Notebooks - “coronavirus.ipynb” следующим образом.

Заключение

Мы узнали, как получить Jupyter Notebook в облаке с помощью Saturn Cloud. Мы также познакомились со структурой ноутбука. Мы видели типичный рабочий процесс, используемый при разработке ноутбука. И, наконец, мы проводим простой анализ данных в машинном обучении.

использованная литература

[1] Домашняя страница Jupyter: https://jupyter.org

[2] Облако Сатурна: https://www.saturncloud.io

[3] Блокнот на Github:

Https://github.com/housecricket/notebooks/blob/master/coronavirus.ipyn

[4] Метрики для проверки точности алгоритмов машинного обучения https://medium.com/datadriveninvestor/metrics-to-test-the-accuracy-of-machine-learning-algorithms-67adf367f60