Что такое конвейер машинного обучения? Это цепочка шагов! Но какие шаги? Какая цепь?
Читатель: Вы говорите об ожерелье или о чем-то еще?
Я: Нет, но может быть да с точки зрения взаимосвязи вещей.
Читатель: Хорошо, мистер 2Chains!
Я: Что? В любом случае, предположим, что конвейер — это просто взаимосвязанные шаги, где каждый шаг принимает входные данные и производит выходные данные.
Читатель: это слишком широкое определение!
Я: Эй, моя цель здесь не в том, чтобы дать вам точное определение. Я пытаюсь сделать статью здесь, пожалуйста, просто прочитайте!… пожалуйста.
В этой статье мы поговорим о конвейере машинного обучения Azure, использовании azureml.pipeline и azureml.data. чтобы помочь выполнять ввод и вывод по цепочке шагов.
Мы собираемся сделать только два шага. Для этих шагов нам понадобятся две библиотеки: PythonScriptStep и OutputFileDatasetConfig. Первый помогает выполнять скрипты Python, а второй — промежуточный ввод/вывод данных.
Мы импортируем библиотеки.
from azureml.data import OutputFileDatasetConfig from azureml.pipeline.steps import PythonScriptStep
Получаем датасет для исходных данных
raw_ds = Dataset.get_by_name(ws, ‘raw_dataset’)
Мы определяем объект Pipeline Data для передачи данных между шагами.
data_store = ws.get_default_datastore() prepped_data = OutputFileDatasetConfig(‘prepped’)
Теперь, учитывая, что у нас уже есть скрипт data_prep и model в данном каталоге, здесь скрипты и compute_target, мы можем объединить два этапа конвейера машинного обучения, которые состоят из подготовки набора данных и обучения модели. .
# Step to run a Python script step1 = PythonScriptStep(name = ‘prepare data’, source_directory = ‘scripts’, script_name = ‘data_prep.py’, compute_target = ‘aml-cluster’, # Script arguments include PipelineData arguments = [‘ — raw-ds’, raw_ds.as_named_input(‘raw_dataset’), ‘ — out_folder’, prepped_data]) # Step to run an estimator step2 = PythonScriptStep(name = ‘train model’, source_directory = ‘scripts’, script_name = ‘train_model.py’, compute_target = ‘aml-cluster’, # Pass as script argument arguments=[‘ — training-data’, prepped_data.as_input()])
Найдите ниже полный фрагмент кода.
Источник: курс Coursera по сертификации Microsoft Developper Associate