У меня очень большой набор данных, и я использую fit_generator Keras для обучения модели Keras (бэкэнд тензорного потока). Мои данные необходимо нормализовать по всему набору данных, однако при использовании fit_generator у меня есть доступ к относительно небольшим пакетам данных, и нормализация данных в этом небольшом пакете не соответствует нормализации данных по всему набору данных. Влияние довольно велико (я его тестировал, точность модели значительно ухудшилась).
Мой вопрос таков: какова правильная практика нормализации данных по всему набору данных при использовании fit_generator Keras? И последнее: мои данные представляют собой смесь текстовых и числовых данных, а не изображений, и, следовательно, я не могу использовать некоторые из возможностей предоставленного Keras генератора изображений, который может решить некоторые проблемы с данными изображения.
Я рассмотрел нормализацию полного набора данных перед обучением (я полагаю, что это метод «грубой силы»), но мне интересно, есть ли более элегантный способ сделать это.