Юпитер = Юлия + Python + R
Если вы работаете специалистом по обработке данных, вы, вероятно, ежедневно записываете полный процесс анализа, почти так же, как другие ученые используют лабораторный журнал для записи тестов, прогресса, результатов и выводов. Какие инструменты вы используете для того же? Я использую Jupyter Notebook каждый день, позвольте мне вкратце познакомить вас с ним.
- Что такое блокнот Jupyter?
- Почему это полезно для анализа данных.
- Каковы особенности Jupyter Notebook?
- Выполняйте простой анализ данных в машинном обучении.
Введение в записные книжки Jupyter
Что такое блокнот Jupyter?
Jupyter Project¹ - это побочный проект из проекта I-Python, который изначально предоставлял интерфейс только для языка Python и продолжает предоставлять каноническое ядро Python для Jupyter. Само название Jupyter образовано от сочетания языков Julia, Python и R.
Почему это полезно?
Project Jupyter существует для разработки платформы с открытым исходным кодом, открытых стандартов и сервисов для интерактивных вычислений на многих языках программирования, таких как, например, Python, R и MATLAB.
Jupyter доступен как веб-приложение в облачной экосистеме. из ряда мест, таких как Облако Сатурна². Его также можно использовать локально в самых разных установках. Которые содержат живой код, уравнения, рисунки, интерактивные приложения и текст Markdown.
Особенности ноутбуков Jupyter?
Блокнот Jupyter - это, по сути, файл JSON с рядом аннотаций. Блокнот состоит из трех основных частей.
- Метаданные: словарь определений, используемый для настройки и отображения записной книжки.
- Формат записной книжки: номера версий программного обеспечения, использованного для создания записной книжки. Номер версии используется для обратной совместимости.
- Список ячеек: есть три разных типа ячеек - уценка (отображение), код (для возбуждения) и вывод.
Как мы будем работать с ноутбуками Jupyter?
Есть четыре следующих шага.
- Первый шаг: создайте новую записную книжку для анализа данных.
- Второй шаг: добавьте шаги анализа, кодирование и выходные данные.
- Третий шаг: окружите свой анализ организационной разметкой и разметкой презентации, чтобы передать всю историю.
- Последний шаг: затем интерактивные записные книжки будут использоваться другими пользователями, изменяя параметры и данные, чтобы отметить влияние их изменений.
Получение ноутбуков Jupyter с Saturn Cloud
Один из самых быстрых способов получить Jupyter Notebooks - зарегистрировать учетную запись в Saturn Cloud. Он позволяет быстро развернуть записные книжки Jupyter в облаке и масштабировать их в соответствии с вашими потребностями.
- Он развертывается в вашем облаке, поэтому нет необходимости переносить ваши данные. Используйте всю экосистему Python через Jupyter.
- Легко создавайте среды и импортируйте пакеты (Pandas, NumPy, SciPy и т. Д.).
- Вы можете публиковать записные книжки и легко сотрудничать на облачном Jupyter.
- Масштабируемость Dask от ноутбука до сервера и кластера.
См. Далее: https://www.saturncloud.io
Можем ли мы преобразовать записную книжку Jupyter в сценарий Python?
Да, вы можете преобразовать блокнот Jupyter в скрипт Python. Это эквивалентно копированию и вставке содержимого каждого блока кода (ячейки) в один файл .py. Разделы уценки также включены в качестве комментариев.
Преобразование можно выполнить в командной строке следующим образом.
jupyter nbconvert --to=python notebook-name.ipynb
Пример использования Jupyter Notebooks для ML
Допустим, вы врач, оцениваете данные для тысячи человек и прогнозируете, может ли кто-нибудь заразиться коронавирусом.
Мы будем шаг за шагом оценивать наш алгоритм, вычисляя такие показатели, как TP, TN, FP, FN, TPR, TNR, PPV, NPV, FPR и ACC. Предположим, что вы знакомы с этими показателями (если нет, читайте дальше здесь⁴).
Прежде чем мы попытаемся оценить наши алгоритмы, есть две вещи.
- Что мы прогнозируем:
y_pred
. - Какой результат получаем:
y_true
.
Мы создаем новый файл Jupiter Notebooks - “coronavirus.ipynb”
следующим образом.
Заключение
Мы узнали, как получить Jupyter Notebook в облаке с помощью Saturn Cloud. Мы также познакомились со структурой ноутбука. Мы видели типичный рабочий процесс, используемый при разработке ноутбука. И, наконец, мы проводим простой анализ данных в машинном обучении.
использованная литература
[1] Домашняя страница Jupyter: https://jupyter.org
[2] Облако Сатурна: https://www.saturncloud.io
[3] Блокнот на Github:
Https://github.com/housecricket/notebooks/blob/master/coronavirus.ipyn
[4] Метрики для проверки точности алгоритмов машинного обучения https://medium.com/datadriveninvestor/metrics-to-test-the-accuracy-of-machine-learning-algorithms-67adf367f60