Подготовлено: Леандро Паренте (OpenGeoHub), Мартин Витьес (OpenGeoHub), Том Хенгл (OpenGeoHub), Кодрина Мария Илие (Terrasigna) и Мартин Ланда (CVUT Прага)

OpenGeoHub совместно с партнерами CVUT Prague, mundialis, Terrasigna, MultiOne и GiLAB выпустили портал данных Open Data Science Europe 1 марта 2021 года. Он включает терабайты данных с координатной привязкой, доступных как оптимизированные для облака GeoTiffs и обслуживаемые через Geoserver. В предстоящие годы в рамках проекта будет сопоставляться, расширяться, согласовываться, интегрироваться и распространяться широкий спектр свободно доступных экологических и административных данных для Европы. Узнайте больше, как получить доступ и использовать эти данные, а также каковы их преимущества и ограничения.

Слои, доступные в настоящее время

Портал данных Open Data Science Europe, размещенный по адресу https://maps.opendatascience.eu, состоит из слоев окружающей среды, земного покрова, ландшафта, климата, почвы и растительности, покрывающих на всей протяженности континентальной Европы при относительно высоком пространственном разрешении (от 30 м до 1 км). Он был разработан в рамках проекта CEF Telecom 2018-EU-IA-0095: Гео-гармонизатор: автоматизированная картографическая система в масштабах всего ЕС для гармонизации открытых данных на основе FOSS4G и машинного обучения софинансируется Европейской Комиссией. Используйте его для визуализации, загрузки, обслуживания и обмена наборами пространственно-временных данных за период 2000–2020 годов и далее.

Вот слои, которые вы сейчас можете обнаружить с помощью программы просмотра Open Data Science Europe:

  • Годовой доминирующий класс земельного покрова на основе CORINE (2000–2019 гг.);
  • Годовые вероятности и неопределенности для 33 классов земного покрова CORINE (2000–2019 гг.);
  • Годовые композиты Landsat RGB на летний сезон (июнь – сентябрь 2000–2019 гг.);
  • Годовой композит Landsat NDVI, полученный по сезонам (зима, весна, лето и осень - 2000–2020 гг.);
  • Плотность застройки по OSM (2021) и Copernicus (непроницаемая застройка - 2018);
  • Плотность коммерческих, промышленных и жилых зданий по OSM (2021 г.);
  • Гармонизированные охраняемые территории на основе OSM (2021 г.) и NATURA2000 (2019 г.)
  • Гармонизированные административные районы (на уровне округов), полученные из OSM (2021 г.) и NUTS (2021 г.);
  • Вероятности 18 классов земного покрова OSM (2021 г.);
  • Плотность автомобильных и железных дорог по OSM (2021 г.);
  • Ежемесячные прогнозы твердых частиц (PM2,5) (2018 г.);

Годовой продукт земельного покрова (2000–2019 гг.)

Как были созданы карты, доступные на портале данных? Годовой продукт земного покрова для континентальной Европы был создан с использованием ансамблевого машинного обучения (EML), в котором использовались обучающие выборки, полученные из других проектов, финансируемых Европейской комиссией, таких как LUCAS (структура Землепользование и площадь покрытия). Survey) и Copernicus Land Monitoring Service, а также несколько согласованных растровых слоев (например GLAD Landsat ARD images и Continental EU DTM) для прогнозирования доминирующего земного покрова, вероятностей и неопределенностей для 33 классы, совместимые с CLC (CORINE Land Cover) более 20 лет (2000–2019). Рабочий процесс, представленный на рис. 1, был реализован на R и Python и общедоступен по лицензии Apache-2 через библиотеку eumap.

Сначала мы загрузили LANDSAT ARD, предоставленный GLAD (Потапов и др., 2020) за период с 1999 по 2020 год и для всей континентальной Европы (область маски суши и плиточная система , используемая в проекте). Этот архив изображений был проверен для уменьшения облачности с использованием в качестве эталона оценки качества, предоставленной GLAD, и агрегирован по сезонам в соответствии с тремя различными квантилями (25-й, 50-й и 75-й). Изображения для каждого сезона были выбраны с использованием одинаковых календарных дат для всех периодов:

  • Зимний: со 2 декабря предыдущего года по 20 марта текущего года,
  • Весна: с 21 марта по 24 июня текущего года,
  • Лето: с 25 июня по 12 сентября текущего года,
  • Осень: с 13 сентября по 1 декабря текущего года,

Этот подход позволил получить 84 изображения (3 квантиля 4 сезона ✕ 7 диапазонов Landsat) за каждый год с различным появлением пропусков / узловых данных из-за загрязнения облаков во всех наблюдениях за конкретный сезон. Чтобы преодолеть эту проблему, был реализован попиксельный подход для заполнения всех пробелов / узловых данных с использованием в качестве нового значения медианы всех наблюдений, доступных в различных временных окнах, с упором на наблюдение: 1 - в тот же сезон, 2 - Соседние сезоны и 3- круглый год. Этот подход к заполнению пробелов, получивший название Temporal Moving Window Median (TMWM) и общедоступный в библиотеке eumap, использовался для создания временных композитов Landsat, используемых на этапах обучения и прогнозирования ML.

Помимо данных Landsat, мы также использовали данные о ночном освещении (VIIRS / SUOMI NPP), глобальной частоте поверхностных вод (Pekel et al., 2016) и изображениях Continental EU DTM. (т.е. высота, уклон), чтобы помочь улучшить прогнозные модели. Спектральные индексы Landsat (SAVI, NDVI, NBR, NBR2, REI и NDWI) и макс. / Мин. ежемесячная геометрическая температура, рассчитываемая на пиксельной основе, и для каждого месяца, согласно Килибарда и др., 2014 с использованием в качестве входных данных широты и высоты, рассчитывалась на лету во время шаг прогнозирования, избегая накладных расходов на поддержание этого большого объема данных на некоторых носителях.

Данные для обучения были получены из географического положения LUCAS (источник in-situ) и центроида всех полигонов земного покрова CORINE, согласованных по 33 классам земного покрова (таблица 1) и организованных по годам, где каждая уникальная комбинация долготы, широты и года рассматривалась как независимая выборка, в результате чего было получено более 7 миллионов обучающих точек. Баллы LUCAS с уникальным классом земного покрова получили рейтинг достоверности 100%, а баллы CORINE получили 85%. Эти веса достоверности учитывались на этапе обучения ML. Точки использовались в методе наложения пространства-времени, который учитывал местоположение и год для получения значений пикселей всех ковариат / функций (например для выборки из 2018 года значения были получены из композитов Landsat со ссылкой к тому же году - см. демонстрация кода eumap). Некоторые конкретные образцы земного покрова (т.е. 111, 122, 131, 141, 211, 221, 222, 223, 231, 311, 312, 321, 411, 512) были проверены в соответствии с конвергенцией с предварительными существующие картографические продукты (OSM дороги, железные дороги и здания; слои высокого разрешения Copernicus), где, например, образцы 111: Городская ткань расположены в зонах застройки с низкой плотностью застройки (›50% согласно Строительный слой Copernicus-OSM ) были удалены из окончательных данных обучения. Эти шаги создали матрицу классификации с ~ 5,3 миллионами выборок и 178 ковариатами / функциями (включая растровые данные на лету).

Используя эту матрицу классификации, мы провели оптимизацию гиперпараметров для трех моделей машинного обучения (т.е. Random Forest - Breiman, 2001; XGBoost - Chen & Guestrin, 2016; искусственная нейронная сеть - Mishra & Srivastava, 2014 ), сводя к минимуму показатель log_loss , полученный в результате 5-кратной пространственной перекрестной проверки на основе системы обработки почвы 30 30 км . Лучшие гиперпараметры использовались для обучения моделей, способных предсказывать вероятности земного покрова, которые служили входными данными для обучения линейного метаобучающегося (т.е. классификатор логистической регрессии - Defazio & Bach, 2014), отвечает за прогнозирование окончательных вероятностей земного покрова всех классов земного покрова (см. демонстрация кода eumap). Неопределенности были рассчитаны для 33 классов земного покрова в соответствии со стандартным отклонением трех прогнозируемых вероятностей для каждого пикселя. Самая высокая вероятность была выбрана в качестве доминирующего класса земного покрова, в результате чего было составлено 20 годовых карт континентальной Европы. Все выходные слои (20 доминирующих классов земного покрова, 660 вероятностей для каждого класса и 660 неопределенностей для каждого класса) были организованы в виде файлов облачных оптимизированных геотификаторов (GOG) и общедоступны через платформу Open Data Science Europe и S3. Cloud Object Service (см. Короткий видеоурок и демонстрацию кода eumap).

Ожидается публикация подробного описания всех этапов обработки и общего анализа изменений земного покрова в континентальной Европе. В ближайшие месяцы мы оценим эту первую версию продукта, проведем оценку точности и составим список улучшений / исправлений на основе отзывов пользователей.

Гармонизированный продукт OSM (2021 г.)

Согласованный продукт OpenStreetMap включает в себя: дороги, железные дороги, здания, землепользование, административные границы и охраняемые природные территории для континентальной Европы. Мы извлекали данные из векторных слоев OSM, предоставленных GeoFabrik GmBh, и интегрировали с слоями высокого разрешения Copernicus, сайтами NATURA2000 и NUTS (Номенклатура территориальных единиц для статистики). Слои зданий, землепользования, охраняемых территорий были разделены на следующие категории:

  1. Извлеките все возможные значения наиболее описательной переменной в данных OSM;
  2. Суммируйте количество появлений и общую площадь, покрытую объектами каждого типа по всем странам;
  3. Назначайте каждый тип категории до тех пор, пока по крайней мере 99% объектов не будут отнесены к категории.

Все слои (отфильтрованные и категоризированные данные OSM) были преобразованы в растры с разрешением 10 м2, где каждый пиксель, расположенный в некотором векторном объекте, получил значение 100. Затем эти растры были усреднены до 30-метрового пространственного разрешения, чтобы получить значение вероятности / плотности.

Список слоев, добавленных к данным OSM, включает:

Транспортная инфраструктура

  • Дороги OSM: дороги и автомагистрали, доступные для автомобилей, удаление векторных объектов, недоступных для автомобиля (например, пешеходная дорожка).
  • OSM Railways: все железные дороги.

Плотность застройки

  • Здания Коперника-OSM: все виды построек по OSM. Чтобы исправить недостающие данные в плохо аннотированных регионах, полученный растр был интегрирован со слоем Copernicus Impervious Built-up (IBU) 2018. Значения пикселей между 0–100 представляют плотность здания OSM, а инвертированный диапазон 200–101 представляет плотность IBU (101 - это наивысшее значение предназначения).
  • Жилые здания OSM. Здания, которые в основном используются в качестве жилых домов, например дома и квартиры.
  • Коммерческие здания OSM: здания, в которых компании продают товары потребителям, например отели, розничные магазины и развлекательные заведения.
  • Промышленные здания OSM: здания, которые в основном используются для производства и хранения / распределения товаров, например фабрики, склады и распределительные центры.
  • Административные районы NUTS-OSM представляют все округа в регионе проекта, очерченные с использованием уровня 3 NUTS и, где недоступны данные OSM на соответствующем уровне. OSM использовалась для следующих стран: Босния и Герцеговина; Косово; Черногория; Андорра; Сан-Марино; Коронные владения (3 острова: остров Мэн, Джерси и Гернси в Ирландском море); Фарерские острова и монашеское государство Святой Горы и Афонитов. Полученный слой был растеризован в соответствии с иерархическими кодами, представляющими регионы, страны и округа (все коды доступны здесь).
  • Охраняемые территории Natura2000-OSM - это интегрированный продукт с различными зонами МСОП (Международный союз охраны природы), аннотированными в OSM, и тремя типами участков, предоставленными NATURA2000, в результате чего создается растровый слой со следующими классы: МСОП 1a: Строгие заповедники, МСОП 1b: Дикие территории, МСОП 2: Национальные парки, МСОП 3: Природные памятники или особенности, МСОП 4: Среда обитания / зоны управления видами, МСОП 5: Защищенные ландшафты / морские пейзажи, МСОП 6: Защищенные Территории с устойчивым использованием природных ресурсов, Прочее: совокупность охраняемых территорий, не подпадающих под систему МСОП, Категория A: Классифицированный особый охраняемый объект (SPA), Категория B: Участок согласно Директиве о местообитаниях (pSCI, SCI или SAC) Категория C: область pSCI / SCI / SAC такая же, как и назначенная SPA. Область перекрытия: области, существующие одновременно в OSM / IUCN и NATURA2000.

OSM Land Use состоит из 16 растров, основанных на часто используемых категориях в системе OSM землепользования. Некоторые классы были напрямую растеризованы, а некоторые сгруппированы по категориям:

  • Кладбища: места для захоронения.
  • Строительные площадки: сайты, на которых ведется активное строительство зданий или сооружений.
  • Свалки: площадки для постоянного или длительного хранения отходов.
  • Приусадебные участки: районы, на которых предприятия или местные жители выращивают сельскохозяйственные культуры или цветы.
  • Подворье: части ферм, на которых не выращиваются сельскохозяйственные культуры.
  • Лес: управляемые леса или лесные плантации.
  • Трава: участки скошенной и ухоженной травы.
  • Теплица: участки, используемые для выращивания растений в теплицах.
  • Порты. Прибрежные районы, через которые проходят коммерческие и гражданские перевозки.
  • Луга: районы, в основном засаженные травой и другими недревесными растениями, используемые в основном для сена или пастбища животных.
  • Военные: территории, используемые для любых военных целей, например аэродромы, полигоны и базы.
  • Сады: участки, на которых намеренно высажены деревья или кустарники и используются для производства продуктов питания.
  • Карьеры: участки, используемые для добычи полезных ископаемых.
  • Резервуары: искусственные водоемы и области, искусственно созданные для удержания воды (бассейны).
  • Соль: области, в которых морская вода испаряется для извлечения соли.
  • Виноградники: районы, где выращивают виноград.

Открытые данные

OpenDataScience.eu - это проект Open Data, вдохновленный проектами OpenLandMap.org и OpenStreetMap.org. Если не указано иное, данные, доступные на этом портале, находятся под лицензией Open Data Commons Open Database License (ODbL) и / или Creative Commons Attribution-ShareAlike 4.0 и / или Creative Commons Attribution 4.0 Международной лицензии (CC ОТ). Это означает, что вы можете использовать данные OpenDataScience.eu для любых целей, если вы указываете OpenDataScience.eu и его участников. Если данные доступны по лицензии CC BY-SA, это означает, что если вы изменяете или основываете данные определенным образом, вы можете распространять результат только по той же лицензии.

Доступ к данным и загрузка

Доступ к данным через файловую службу (оптимизированные для облака GeoTIFF): большинство слоев, доступных на https://maps.opendatascience.eu, также легко доступны через наш облачный объект S3 Сервис в виде файлов GeoTIFF, оптимизированных для облака под лицензией Open Data Commons Open Database License (ODbL). Это означает, что вы можете (а) визуализировать данные и запустить обработку напрямую, используя QGIS или подобное (см. Короткий видеоурок), (б) импортировать, подмножество, обрезать и наложить части данных для локальной области. Однако мы не рекомендуем загружать полные наборы данных с помощью Wasabi.com. Чтобы загрузить полные наборы данных (для всего европейского континента), вы должны использовать zenodo.org или аналогичный. В настоящее время данные загружаются в общедоступные репозитории данных.

Векторные данные можно импортировать в QGIS стандартным способом через сервис WFS по URL:

Доступ к растровым слоям (см. полный список) можно получить через службу HTTP с помощью QGIS (см. Также Учебник COG). Это примеры слоев:

Соглашение об именах файлов подробно объясняется здесь. Загрузите файл стиля (QML) здесь.

Доступ к GDAL

Функциональность gdal_translate может использоваться для загрузки данных непосредственно с URL-адреса COG. Вам просто нужно передать информацию об ограничивающей рамке с помощью параметра -projwin, указав URL-адрес COG с префиксом / vsicurl /:

gdal_translate -co СЖАТИЕ = LZW -projwin 3949019.319534085 3274684.0278522763 3997655.528969183 3247994.5591947753 /vsicurl/http://s3.eu-central-1.wasabisys.com/covereum_lup0emp_cd_cd_cd_cd_cd_vc_vc_vc_wasabisys. .tif lcv_landcover_amsterdam.tif

Доступ к Python

Чтобы запросить данные для любой координаты / точки ЕС, просмотрите этот Учебник по записной книжке Jupyter.

Доступ R

Для доступа к данным из R с помощью пакета terra. Отсюда вы можете использовать любую собственную операцию, например для обрезки некоторых полигонов или повторной выборки / агрегирования значений.

Итоговые баллы

Мы уже получили около 10 ТБ данных, представляющих растительный покров и землепользование для Европы с относительно высоким пространственным разрешением 30 м. Обратите внимание, что пространственно-временное машинное обучение дает ограниченную точность, и многие из закономерностей, видимых на картах, больше являются результатом неопределенности проблем классификатора / шума на изображениях Landsat, чем фактических изменений в земном покрове / землепользовании. Это основная критика, которую мы получили до сих пор в отношении прогнозов. С другой стороны, пространственно-временное машинное обучение предлагает несколько преимуществ:

  • Единая модель пространства-времени используется для моделирования таких явлений, как земной покров, что делает ее целостным подходом к гармонизации и прогнозированию данных;
  • Используя точки LUCAS, мы основываем моделирование и прогнозы на последовательном и контролируемом наборе данных, который позволяет объективно оценивать динамику земного покрова;
  • В принципе, мы можем с помощью существующей модели также прогнозировать растительный покров на 2020 и 2021 годы - дополнительных точек выборки / обучения не требуется, т.е. подготовка изображений Landsat для этих периодов была бы достаточно вероятной;
  • Все процессы, показанные выше, полностью автоматизированы, поэтому мы можем продолжать улучшать модели и повторно выполнять прогнозы;

Если вам известно о подобном продукте и / или если вы обнаружите эффективный способ уменьшить неопределенность и устранить проблемы в прогнозах результатов, то есть сделать их более согласованными и удалить весьма маловероятные последовательности в земном покрове (например, значение изменения пикселей из леса на пахотные земли, а затем обратно в течение

В ближайшие годы мы будем использовать аналогичную структуру для картирования потенциальной естественной растительности, видов лесных деревьев и динамических свойств окружающей среды. Если вам интересна эта работа и вы хотите пройти специальный тренинг по теме пространственно-временного машинного обучения, присоединяйтесь к нам на 5-дневный семинар в сентябре 2021 года: https://opendatascience.eu/workshop-2021/

Если у вас возникнут какие-либо технические проблемы или вы обнаружите ошибку на портале данных Open Data Science Europe, сообщите об этом здесь.