Исключение столбцов из набора данных в таблицах GCP AutoML с помощью REST API

Вопрос, аналогичный заданному здесь - исключить столбцы из набора данных в GCP AutoML Таблицы, но немного посложнее

Я использую таблицы AUTOML, но создаю CSV-файл из моей базы данных SQL для обучения моделей и на бэк-энде, когда запрашиваются прогнозы для новых данных, отправляя CSV-файл, а затем забирая выходной CSV-файл из папки внутри ведро GCP.

Мой вопрос: после обучения модели, когда вы отправляете новые данные для оценки, можно ли программно передать уникальный идентификатор в CSV, который не использовался при обучении модели, чтобы я мог использовать этот идентификатор для убедиться, что записи из партии получают правильные оценки?

В качестве альтернативы, если схема для обученной модели потребует этот уникальный идентификатор для чтения CSV запроса прогнозирования (поскольку он предположительно требует того же количества переменных в схеме), можно ли передать переменную (уникальный идентификатор) в обучение модели, но не использовать эту переменную в обучении (поскольку я не хочу вносить непреднамеренное смещение с помощью уникального идентификатора)?

Я вижу, где это возможно, с помощью python, но я не могу найти нигде в документации REST, где это можно сделать с помощью API.

Любая помощь приветствуется.


person Byron Rogers    schedule 17.08.2020    source источник
comment
Я предполагаю, что вы можете использовать models.create REST API, снабжая его только столбцами, которые будут включены в обучение в конкретных метаданных модели AutoML Tables форма (inputFeatureColumnSpecs поле). Это то, что вы ищете?   -  person Nick_Kh    schedule 18.08.2020


Ответы (1)


Google Cloud AutoML представляет собой AutoML API REST в качестве программного интерфейса, обеспечивающего доступ к различным методам моделей машинного обучения через HTTP-вызовы REST или клиентские библиотеки на популярных языках программирования.

В частности, для продукта AutoML Tables, как я упоминал в комментарии, вы могли бы составить models.create метод API, определение соответствующей модели TablesModelMetadata метаданных, запуск процесса обучения на подготовленном наборе данных.

Обнаружив TablesModelMetadata форму JSON, вы можете найти поле inputFeatureColumnSpecs, в котором вы указываете columns, на которых предполагается обучение модели.

Согласно inputFeatureColumnSpecs описанию, если в этом поле не хранятся имена столбцов, то все столбцы основной таблицы используются для ввода обучения и прогнозирования, кроме target_column, weight_column и < em> ml_use_column.

person Nick_Kh    schedule 24.08.2020