Как применить модели scikit learn к невидимым данным другой формы? Get Dummies вызывает проблемы

Скажем, я обучаю модель для обнаружения оттока, и набор данных имеет следующие функции (очень упрощенно). У меня есть марки и девушки, которые зарегистрировались онлайн или по почте.

ID  source  Gender  Churn
1   Online  M       1
2   Post    M       1
3   Online  M       1
4   Online  F       0
5   Post    F       0

И применяю панды get_dummies:

ID  source_online   source_post Gender_M    Gender_F
1       1               0          1          0
2       0               1          1          0
3       1               0          1          0
4       1               0          0          1
5       0               1          0          1

Теперь предположим, что я использую StandardScaler, а затем fit модель на этих данных и обучаю ее.

Через несколько дней я получаю новые данные из той же базы данных и схемы, и мне нужно спрогнозировать отток. Точно такие же переменные, но на этот раз только мужчины, зарегистрировавшиеся только онлайн.

ID  source  Gender
1   Online  M
2   Online  M
3   Online  M

Применяю get_dummies:

   ID  source_Online  Gender_M
0   1              1         1
1   2              1         1
2   3              1         1

Во-первых, StandardScaler с изученными настройками из обучающего набора не работает с этими невидимыми данными, потому что в нем отсутствуют некоторые dummy variables. И, конечно же, это не работает с обученной моделью по той же причине.

Есть ли способ обойти это?

В настоящее время у меня есть сотни записей с этой проблемой, потому что в них отсутствует одна переменная, которая присутствовала в обучающем наборе. (В этом упрощенном примере нам не хватает женщин)

SCool 20.11.2019 источник

comment

Это похоже на дубликат этого вопроса: stackoverflow.com/questions/41335718/ - praneeth 20.11.2019

comment

Взгляните на ответ, который я дал в этом аналогичном вопросе: stackoverflow.com/questions/58799643/ - Chris 21.11.2019

comment

Отвечает ли это на ваш вопрос? Одна последовательность горячего кодирования со значениями, отсутствующими в тесте - MaximeKan 22.11.2019

comment

@MaximeKan OneHotEncoder требует, чтобы я сначала преобразовал все свои категориальные в числа, например Пол: мужчина / женщина в пол 1/0 и т. Д. Это не очень удобно, а затем я теряю имена столбцов после использования onehotencoder, поэтому есть другой требуется дополнительный шаг, чтобы вернуть имена столбцов. Поэтому я остался с pandas get_dummies и использовал предложения в ссылке @Praneeth. - SCool 22.11.2019

Вопросы по теме

eventReactive с 2 кнопками действий на 2 вкладках
Добавить результат в TestCaseSource
три столбца в одну дату
Как открыть URL-адрес в WebView через .js в создателе кокосов
Highchart GMT и смещение в один час
проблема с отключением дат в datepicker
Получить описание текущего шага, вызываемого из файла BDD
журнал данных ракетки - журнал данных с отрицанием?
Не удается проиндексировать массив int RavenDB
Как использовать команду Scaffold-DbContext в VS Code
Взрывающийся градиент тензорного потока
Итерация по столбцу фрейма данных pandas и оценка с помощью оператора if и передача значений столбца в пустой список/словарь
Заполнить таблицу данных; Неверный ответ JSON
Получить точное время для удаленного сервера
Сбор элементов в массиве JSON
Динамический компонент круговой диаграммы D3 в Angular
Данные о пользовательских событиях в Firebase Events
Laravel 5.2 - проблема с веб-сервисами
Как повернуть трехмерный график в Matplotlib вокруг любой оси
Представление класса базы данных Java SQL