Допускают ли модели PMML единственное предсказание на основе нескольких строк данных (например, путем агрегирования?)?

Я ищу способ применить некоторые методы агрегирования в модели PMML (без конкретного примера, просто чтобы посмотреть, возможно ли это)

В документации на странице преобразований PMML есть отрывок о Aggregate, определяется как способ применения шести функций: количество, сумма, среднее, минимальное, максимальное и мультимножество.

Совокупность

Означает ли это, что есть способ сгенерировать преобразование внутри модели PMML, которое сможет свернуть несколько строк входных данных в одну строку прогноза? Мне не удалось найти такой пример (или вообще какой-либо пример), а в этом посте говорится, что в PMML поддерживаются только операции с единичными строками.

При дальнейшем поиске в библиотеке Sklearn2PMML есть метод агрегатора, но он генерирует преобразование только в одной строке, например, получение среднего из двух столбцов.

Этот код:

iris_pipeline = PMMLPipeline([
    ("mapper", DataFrameMapper([
        (["Sepal.Length", "Petal.Length"], [ContinuousDomain(), Aggregator(function = "mean")]),
    ])),
])

Умеет генерировать простое преобразование вместо агрегатной функции.

<TransformationDictionary>
    <DerivedField name="avg(Sepal.Length, Petal.Length)" optype="continuous" dataType="double">
        <Apply function="avg">
            <FieldRef field="Sepal.Length"/>
            <FieldRef field="Petal.Length"/>
        </Apply>
    </DerivedField>
</TransformationDictionary>

TL;DR:

Пример того, чего я хотел бы достичь:

Пример того, чего я хотел бы достичь

Есть ли способ сделать это внутри модели PMML, или мне следует попытаться сгенерировать такие действия предварительной обработки, прежде чем применять данные для прогнозирования?


person Matornen    schedule 20.07.2020    source источник


Ответы (1)


Допускают ли модели PMML единственное предсказание на основе нескольких строк данных (например, путем агрегирования?)?

Не по замыслу — стандарт PMML предназначен для представления статистических моделей и моделей интеллектуального анализа данных, а не для ETL.

Возможно, есть еще один стандарт для ETL, который можно было бы объединить с PMML, чтобы создать всеобъемлющее приложение для работы с данными.

person user1808924    schedule 21.07.2020