Введение в использование данных in-situ в некоторых из самых популярных моделей машинного обучения в физических науках.

Более 70% пресной воды в мире используется для орошения, и, естественно, существует огромная потребность в точных оценках и показателях, которые могли бы помочь рациональному использованию воды в сельскохозяйственном секторе.

Эталонное суммарное испарение - это суммарное испарение с гипотетической травяной поверхности при условии, что поверхность хорошо орошается (неограниченное количество воды). Это оценка, используемая при орошении, которая определяет количество воды, необходимое для сельскохозяйственных культур. Поскольку эталонное суммарное испарение является гипотетическим понятием, оно оценивается, а не измеряется.

На эту оценку влияет приповерхностное состояние воздуха, поскольку оно зависит от многих атмосферных переменных и, по сути, рассчитывает потребность атмосферы в испарении. Одним из наиболее распространенных и точных методов его оценки является Уравнение Пенмана-Монтейта.

В этой статье мы используем машинное обучение для прогнозирования эталонного суммарного испарения в штате Калифорния с использованием измерений на месте. Сначала мы выбираем 8 характеристик в качестве входных данных для нашей модели - средняя, ​​максимальная и минимальная температура, относительная влажность, скорость ветра, высота над уровнем моря, солнечная радиация и категориальная переменная, чтобы фиксировать пространственные изменения этих атмосферных переменных.

1. Данные

Мы получили данные из Калифорнийской информационной системы управления ирригационными системами (CIMIS), которая насчитывает 145 метеостанций на местах, расположенных по всей Калифорнии. Эти станции размещаются на хорошо увлажненных травяных поверхностях. Поскольку он измеряет все параметры, необходимые для расчета эталонного суммарного испарения, мы рассчитали его с помощью уравнения Пенмана-Монтейта, которое действует как наша переменная отклика.

Ежечасные данные были усреднены для получения ежедневных данных, и для исследования использовался только вегетационный период с апреля по сентябрь за 5 лет (2015–2019). Данные для каждой станции были сложены в стопку для получения 110929 строк данных.

2. Разработка функций

Для нашей модели машинного обучения были выбраны такие параметры, как атмосферные переменные RH, TMAX, TMIN, TAVG и скорость ветра, чтобы учесть условия площадки и высоту, соответствующую рельефу местности. Однако, поскольку используются измерения на месте, зависимость этих атмосферных переменных от эталонного суммарного испарения может изменяться в зависимости от местоположения. В Калифорнии мы можем ожидать, что станции, расположенные рядом с побережьем, будут вести себя аналогичным образом, и для того, чтобы уловить это изменение в пространстве, была использована кластеризация k-средних, чтобы сгруппировать станции с аналогичными атмосферными условиями.

Характеристики, выбранные для кластеризации k-средних, включали температуру воздуха, относительную влажность и скорость ветра. Чтобы сгруппировать похожие станции, указанные выше характеристики были усреднены для каждой станции за период 5 лет.

Количество кластеров (k) было выбрано на основе следующих методов: -

I. Метод локтя

Метод изгиба показывает разрыв при k = 4, поэтому мы выбрали 4 кластера для группировки наших станций.

II. Оценка силуэта

Оценка силуэта, равная 0,36, говорит нам о том, что точки не могут быть полностью разделены на основе функций и есть степень перекрытия. Однако мы использовали только 145 точек данных и использовали долгосрочные (~ 5 лет) усредненные значения в качестве наших характеристик, поэтому вариации местных условий могут быть не такими отчетливыми, как мы думали.

Метки, созданные в результате кластеризации станций, затем использовались в нашем основном наборе данных для идентификации похожих станций и прогнозирования эталонной эвапотранспирации.

Кроме того, используя модель случайного регрессора леса, мы оценили важность функций и соответствующим образом ранжировали их.

Солнечная радиация и средняя температура имеют наивысшее значение характеристик, а остальные имеют относительно меньшее значение. Кроме того, мы хотим предсказать целевое значение с помощью предикторов, которые легко доступны и могут быть обнаружены дистанционно с помощью спутников, а поскольку скорость ветра не является очень важным параметром, мы ограничиваемся следующими функциями:

3. Подход

В нашем анализе мы использовали искусственную нейронную сеть для прогнозирования эталонного суммарного испарения. Поскольку большинство функций показало некоторую линейную связь с нашим предсказателем, мы изначально использовали гребневую регрессию для предсказания. Мы выбрали регрессию гребня, потому что некоторые особенности показывают сильную линейную взаимосвязь внутри себя, например, температура линейно связана с влажностью. При наличии мультиколлинеарности в пространстве признаков регрессия гребня работает лучше, чем линейная регрессия.

Однако, поскольку функция отклика кажется нелинейной с некоторыми особенностями, для улавливания этой нелинейности использовался многослойный персептрон с двумя скрытыми слоями. В результате экспериментов следующая архитектура дала наилучшие результаты.

Пространство признаков содержит климатические и географические переменные с разными величинами и единицами измерения. Масштабирование функций помогает нормализовать пространство функций и важно для MLP, поскольку помогает повысить точность прогнозирования нашей ИНС.

Функция ReLu использовалась в качестве функции активации в нашей ИНС, и целью этой модели было минимизировать функцию потерь.

Мы также попробовали регрессию гребня и случайный лес.

4. Характеристики модели

Прогнозы модели сравнивались с истинными значениями, и результаты показывают, что модель может объяснить 93% изменчивости наших предсказанных значений.

5. Что мы можем сделать вывод?

Все три модели показали высокие значения R², но ИНС работает немного лучше, чем модель случайного леса и регрессионная модель гребня. Ошибки в модели могут быть частично связаны с использованием ограниченного пространства признаков и исключением составляющей скорости ветра. Ошибка для каждого дня (каждая строка) также была нанесена на график в зависимости от характеристик, чтобы исследовать наличие систематической ошибки в модели. Однако вариация ошибок с характеристиками не показала какой-либо систематической ошибки при прогнозировании эталонного суммарного испарения.

В будущем эта модель может быть улучшена путем добавления дополнительных функций, таких как влажность почвы, для улучшения кластеризации станций на основе аналогичных условий площадки. Было бы также интересно развернуть модель с использованием спутниковых данных вместо измерений на месте для крупномасштабного эталонного прогнозирования эвапотранспирации.