Идентификация сельскохозяйственных угодий — с использованием спутниковых снимков и неконтролируемого машинного обучения.

Часть II. Использование временных рядов различий NDVI в разные сезоны выращивания сельскохозяйственных культур.

Что мы сделали до сих пор:

В своей предыдущей статье я объяснил, как использовать Агро-индексы, полученные со спутника Сентинел-2, для классификации земель по разным категориям и последующего определения активных сельскохозяйственных угодий.

Что теперь?

Мы достигли средней точности прогноза 66%, используя разницу временных рядов по 4 вегетационным индексам в качестве набора данных для кластеризации. Далее мы собираемся провести анализ, который поможет понять все 4 индекса, чтобы увидеть ценность, которую каждая функция добавляет к нашей модели, что приводит к внесению изменений в наш набор данных кластеризации.

Исследовательский анализ данных

Основываясь на производительности нашей последней модели, которая построена с использованием набора данных кластеризации как разности временных рядов нескольких индексов, сгенерированных с использованием набора данных спутниковых снимков Sentinel-2, мы решили изучить набор данных кластеризации и выяснить, можем ли мы следует увеличить количество индексов или уменьшить их для улучшения результатов моделирования.

Мы выявили корреляцию между признаками и нашли взаимосвязь отдельных признаков с предоставленными наземными помеченными данными от ESA (Европейское космическое агентство).

Пример данных:

Выбираются два лака (2 00 000) случайных выборок из индийского региона, и данные подготавливаются для кластеризации. Этикетки для одного и того же образца взяты с предоставленных ESA сельскохозяйственных масок.

Взаимосвязь характеристик:

Матрица корреляции между всеми функциями и метками создается, чтобы увидеть тенденцию отношений между ними.

Из корреляции между всеми функциями и метками видно, что некоторые из функций, такие как osavi и ndwi, не имеют очень положительной связи с другими функциями, а также с данными меток.

Но ndvi и bm даже не демонстрируют очень положительной связи друг с другом, но также демонстрируют хорошую корреляцию с данными наземной истины.

Дальнейший анализ проводится между ndvi и биомассой, чтобы понять тенденцию обоих индексов относительно меток.

Из двумерного анализа между разностью временных рядов ndvi и выходными метками можно увидеть, что некоторый неверный результат соответствует совпадению, когда диапазон ndvi находится где-то между -0,25 и 0,2, но кроме этого, классификацию двух классов на основе диапазона ndvi diff можно легко визуализировать из здесь.

Сравнение моделей:

Основываясь на этом анализе, мы решили продолжить кластеризацию по нескольким комбинациям признаков (разница временных рядов сельскохозяйственных индексов) и оценить модель.

Мы видим, что наиболее коррелированными признаками являются ndvi и биомасса, поэтому создаются 3 типа комбинаций.

Подсчет всех индексов и создание разницы их временных рядов. Об этом уже вкратце рассказано в Части I настоящей статьи.
Набор наиболее коррелированных индексов — NDVI+BioMass, разница их временных рядов
Только различия временных рядов NDVI для нескольких сезонов урожая и фенологических стадий.

Подготовка данных:

EDA говорит, что разницы ndvi между последовательными ndvi в несколько раз в году достаточно, чтобы выяснить изменение плотности сельскохозяйственных угодий со временем и далее разделить его на несколько классов. Мы будем использовать спутниковые снимки от sentinel2 для расчета ndvi и подготовки набора данных для кластеризации путем создания стека различий временных рядов ndvi.

Примечание. Я не буду здесь рассматривать обработку спутниковых данных, я предполагаю, что у вас уже есть этот набор данных, или я предлагаю вам прочитать эту статью о загрузке и обработке спутниковых данных. ».

Кластеры:

Основываясь на приведенном выше анализе, я внес некоторые изменения в набор данных и архитектуру модели. Я собираюсь провести неконтролируемую классификацию ML после применения этих изменений к набору данных, чтобы найти кластеры с разными категориями земель и дополнительно замаскировать их, чтобы найти из них сельскохозяйственные угодья.

Кластеризация K-средних, интегрированная с Facebook AI Similarity Search (FAISS), выполняется на выборочных данных. Реализация с помощью FAISS помогла в эффективном поиске сходства и кластеризации плотных векторов.

Результаты и проверка:

Окончательные результаты кластеризации (lulc и класс маскирования сельского хозяйства) сохраняются в виде растра и сравниваются с исходными наземными данными.

Совпадение пикселей между реальными данными и прогнозируемым сельскохозяйственным классом имеет чувствительность более 80%.

Дальнейшая проверка результатов выполняется визуально и обнаруживается, что другие классы в lulc также дают хорошую точность прогнозирования, например. Для идентификации водных объектов достигается точность более 78%.