Часть II. Использование временных рядов различий NDVI в разные сезоны выращивания сельскохозяйственных культур.
Что мы сделали до сих пор:
В своей предыдущей статье я объяснил, как использовать Агро-индексы, полученные со спутника Сентинел-2, для классификации земель по разным категориям и последующего определения активных сельскохозяйственных угодий.
Что теперь?
Мы достигли средней точности прогноза 66%, используя разницу временных рядов по 4 вегетационным индексам в качестве набора данных для кластеризации. Далее мы собираемся провести анализ, который поможет понять все 4 индекса, чтобы увидеть ценность, которую каждая функция добавляет к нашей модели, что приводит к внесению изменений в наш набор данных кластеризации.
Исследовательский анализ данных
Основываясь на производительности нашей последней модели, которая построена с использованием набора данных кластеризации как разности временных рядов нескольких индексов, сгенерированных с использованием набора данных спутниковых снимков Sentinel-2, мы решили изучить набор данных кластеризации и выяснить, можем ли мы следует увеличить количество индексов или уменьшить их для улучшения результатов моделирования.
Мы выявили корреляцию между признаками и нашли взаимосвязь отдельных признаков с предоставленными наземными помеченными данными от ESA (Европейское космическое агентство).
Пример данных:
Выбираются два лака (2 00 000) случайных выборок из индийского региона, и данные подготавливаются для кластеризации. Этикетки для одного и того же образца взяты с предоставленных ESA сельскохозяйственных масок.
Взаимосвязь характеристик:
Матрица корреляции между всеми функциями и метками создается, чтобы увидеть тенденцию отношений между ними.
Из корреляции между всеми функциями и метками видно, что некоторые из функций, такие как osavi и ndwi, не имеют очень положительной связи с другими функциями, а также с данными меток.
Но ndvi и bm даже не демонстрируют очень положительной связи друг с другом, но также демонстрируют хорошую корреляцию с данными наземной истины.
Дальнейший анализ проводится между ndvi и биомассой, чтобы понять тенденцию обоих индексов относительно меток.
Из двумерного анализа между разностью временных рядов ndvi и выходными метками можно увидеть, что некоторый неверный результат соответствует совпадению, когда диапазон ndvi находится где-то между -0,25 и 0,2, но кроме этого, классификацию двух классов на основе диапазона ndvi diff можно легко визуализировать из здесь.
Сравнение моделей:
Основываясь на этом анализе, мы решили продолжить кластеризацию по нескольким комбинациям признаков (разница временных рядов сельскохозяйственных индексов) и оценить модель.
Мы видим, что наиболее коррелированными признаками являются ndvi и биомасса, поэтому создаются 3 типа комбинаций.
- Подсчет всех индексов и создание разницы их временных рядов. Об этом уже вкратце рассказано в Части I настоящей статьи.
- Набор наиболее коррелированных индексов — NDVI+BioMass, разница их временных рядов
- Только различия временных рядов NDVI для нескольких сезонов урожая и фенологических стадий.
Подготовка данных:
EDA говорит, что разницы ndvi между последовательными ndvi в несколько раз в году достаточно, чтобы выяснить изменение плотности сельскохозяйственных угодий со временем и далее разделить его на несколько классов. Мы будем использовать спутниковые снимки от sentinel2 для расчета ndvi и подготовки набора данных для кластеризации путем создания стека различий временных рядов ndvi.
Примечание. Я не буду здесь рассматривать обработку спутниковых данных, я предполагаю, что у вас уже есть этот набор данных, или я предлагаю вам прочитать эту статью о загрузке и обработке спутниковых данных. ».
Кластеры:
Основываясь на приведенном выше анализе, я внес некоторые изменения в набор данных и архитектуру модели. Я собираюсь провести неконтролируемую классификацию ML после применения этих изменений к набору данных, чтобы найти кластеры с разными категориями земель и дополнительно замаскировать их, чтобы найти из них сельскохозяйственные угодья.
Кластеризация K-средних, интегрированная с Facebook AI Similarity Search (FAISS), выполняется на выборочных данных. Реализация с помощью FAISS помогла в эффективном поиске сходства и кластеризации плотных векторов.
Результаты и проверка:
Окончательные результаты кластеризации (lulc и класс маскирования сельского хозяйства) сохраняются в виде растра и сравниваются с исходными наземными данными.
Совпадение пикселей между реальными данными и прогнозируемым сельскохозяйственным классом имеет чувствительность более 80%.
Дальнейшая проверка результатов выполняется визуально и обнаруживается, что другие классы в lulc также дают хорошую точность прогнозирования, например. Для идентификации водных объектов достигается точность более 78%.