Что такое конвейер машинного обучения? Это цепочка шагов! Но какие шаги? Какая цепь?
Читатель: Вы говорите об ожерелье или о чем-то еще?
Я: Нет, но может быть да с точки зрения взаимосвязи вещей.
Читатель: Хорошо, мистер 2Chains!
Я: Что? В любом случае, предположим, что конвейер — это просто взаимосвязанные шаги, где каждый шаг принимает входные данные и производит выходные данные.
Читатель: это слишком широкое определение!
Я: Эй, моя цель здесь не в том, чтобы дать вам точное определение. Я пытаюсь сделать статью здесь, пожалуйста, просто прочитайте!… пожалуйста.

В этой статье мы поговорим о конвейере машинного обучения Azure, использовании azureml.pipeline и azureml.data. чтобы помочь выполнять ввод и вывод по цепочке шагов.
Мы собираемся сделать только два шага. Для этих шагов нам понадобятся две библиотеки: PythonScriptStep и OutputFileDatasetConfig. Первый помогает выполнять скрипты Python, а второй — промежуточный ввод/вывод данных.

Мы импортируем библиотеки.

from azureml.data import OutputFileDatasetConfig
from azureml.pipeline.steps import PythonScriptStep

Получаем датасет для исходных данных

raw_ds = Dataset.get_by_name(ws, ‘raw_dataset’)

Мы определяем объект Pipeline Data для передачи данных между шагами.

data_store = ws.get_default_datastore()
prepped_data = OutputFileDatasetConfig(‘prepped’)

Теперь, учитывая, что у нас уже есть скрипт data_prep и model в данном каталоге, здесь скрипты и compute_target, мы можем объединить два этапа конвейера машинного обучения, которые состоят из подготовки набора данных и обучения модели. .

# Step to run a Python script
step1 = PythonScriptStep(name = ‘prepare data’,
 source_directory = ‘scripts’,
 script_name = ‘data_prep.py’,
 compute_target = ‘aml-cluster’,
 # Script arguments include PipelineData
 arguments = [‘ — raw-ds’, raw_ds.as_named_input(‘raw_dataset’),
 ‘ — out_folder’, prepped_data])
# Step to run an estimator
step2 = PythonScriptStep(name = ‘train model’,
 source_directory = ‘scripts’,
 script_name = ‘train_model.py’,
 compute_target = ‘aml-cluster’,
 # Pass as script argument
 arguments=[‘ — training-data’, prepped_data.as_input()])

Найдите ниже полный фрагмент кода.

Источник: курс Coursera по сертификации Microsoft Developper Associate