Это сообщение принадлежит Рэну Голдблатту, New Light Technologies, и Николасу Джонсу, GFDRR Labs / Всемирному банку.

OpenStreetMap (OSM) - одно из чудес цифровой эпохи: основанное в 2004 году, оно позволило добровольцам нанести на карту около 42 миллионов зданий и 1 миллион километров дорог, создав ценный ресурс, который часто превосходит официальные карты по полноте и простоте использования. -использовать.

И в некоторых случаях полные карты важнее готовности к стихийным бедствиям и реагирования на них. Ураган Дориан на Багамах - лишь последний пример, когда гуманитарные организации полагаются на данные OSM, чтобы определить местонахождение пострадавших домов, школ и клиник.

Но как мы можем оценить полноту покрытия OSM в данной области? Читайте об основных шагах, которые мы использовали - в случае Гаити - для того, чтобы отличить полностью нанесенные на карту районы от тех, где дополнительное картографирование (например, посредством краудсорсинговых кампаний) принесло бы наибольшие дивиденды.

Оценка полноты OSM

Недавнее исследование Университета Макгилла показало, что OSM захватывает около 83% улиц и дорог мира, но с большими пробелами в охвате в странах со слабым управлением и ограниченным доступом в Интернет. В этом посте мы сосредоточимся конкретно на построении следов.

Вы уже можете сравнить следы зданий OSM с Глобальным слоем населенных пунктов, используя карту Gap Detection группы Humanitarian OpenStreetMap. С помощью рабочего процесса машинного обучения мы можем пойти немного дальше. Мы смоделируем пробелы в покрытии OSM с более высоким разрешением, используя спутниковые данные из бесплатных и открытых источников, оценим точность модели и спрогнозируем недостаточно картографические области.

1. Соберите и проверьте данные OSM.

Для исследовательской визуализации данных OSM в регионе библиотека Python OSMNx является бесценным ресурсом - она ​​обеспечивает точные вызовы API Overpass, извлекая нужные вам сегменты данных в среду записной книжки.

На приведенном ниже графике мы показываем следы зданий для трех густонаселенных районов города. Координаты этих участков площадью в квадратную милю были выбраны путем добавления булавки в Google Maps, где спутниковые снимки показывают плотное покрытие зданий.

Очевидно, что в Порт-о-Пренсе были предприняты значительные усилия по картированию некоторых районов, но не других. Для полного анализа мы собираем данные о строении здания для Гаити в целом (используйте такой сервер, как GeoFabrik).

2. Создайте набор функций прогнозирования.

Ряд геопространственных слоев может оказаться прогнозирующим для плотности застройки, особенно те, которые получены на основе бесплатных, общедоступных и современных спутниковых изображений. Существующие продукты, такие как Global Human Settlement Layer (GHSL), отлично справляются с разграничением городских территорий, но они не фиксируют никаких изменений с момента их выпуска - это исправляет использование спутниковых данных в реальном времени в нашем рабочем процессе.

Мы оценили несколько методов дистанционного зондирования как потенциальных предикторов покрытия территории застройкой, в том числе:

• Интенсивность излучаемого ночью света (VIIRS);

• Спектральные индексы растительности и населенных пунктов, полученные на основе изображений Sentinel-2 (например, NDVI, NDBI, SAVI);

• Текстура поверхности (на основе данных радара с синтезированной апертурой от Sentinel-1);

• Высота и уклон;

• Другие уровни, полученные из OSM, включая плотность дорожных развязок.

Как и в случае с машинным обучением, более качественные функции означают лучшую точность прогнозов и меньше шума. Мы оценили шестнадцать функций прогнозирования, используя Google Earth Engine (GEE) для эффективного создания и агрегирования слоев, полученных с помощью дистанционного зондирования. Приведенный ниже фрагмент подчеркивает легкость и мощность, предоставляемые GEE; здесь мы извлекаем изображения VIIRS за последние три года - набор данных с высоким разрешением, который предлагает большие преимущества в качестве прокси для локализованного экономического роста, доступный с 2012 года - и наносим на карту среднюю интенсивность ночного света на Гаити.

3. Создайте данные для обучения и тестирования.

Делим территорию на сетку ячеек (для этого можно использовать QGIS). Мы установили размер ячейки 500м * 500м, но вы можете использовать любой другой размер, если хотите. Наша цель - спрогнозировать покрытие контуров здания OSM (общую площадь контуров) в ячейке на основе предикторов.

Для создания обучающих данных мы вручную помечаем ячейки сетки, где мы оцениваем, что не менее 75% зданий должны быть полностью отображены (мы полагаемся на спутниковое изображение с высоким разрешением в качестве базового слоя для этой оценки). Около 1600 ячеек были помечены как полностью отображенные.

Затем мы берем 70% этих ячеек в качестве обучающих данных, а оставшиеся сохраняем как тестовые данные - они остаются невидимыми во время обучения модели.

4. Постройте и оцените модель.

Наши обучающие данные включают примерно 1100 ячеек на территории, которая, по нашему мнению, близка к полностью отображенной OSM (то есть по крайней мере 75% зданий фигурируют в OSM согласно визуальному осмотру).

Множественный линейный регрессионный анализ показал, что совокупный эффект девяти переменных, взятых вместе, объясняет до 82% вариации площади основания здания OSM в ячейке. Точность прогноза этих переменных вместе намного выше, чем каждой переменной независимо: например, простое использование World Settlement Footprint объясняет только 62% вариации.

Используя алгоритм случайного леса, мы видим более высокую точность предсказания. Модель предсказывает 89% вариации площади основания здания OSM на ячейку. Наиболее важными предикторами модели являются глобальный городской след и след населенных пунктов в мире, за которыми следуют NDBI, количество дорожных развязок и ночные огни VIIRS.

Результат: выявленные пробелы в OSM

Обнаружив, что наша модель работает достаточно хорошо, мы применяем ее для прогнозирования площади здания OSM для всего Гаити и помечаем ячейки, которые, по прогнозам, будут полностью отображены, но фактически не покрыты OSM.

Во многих районах Гаити отсутствует полное картографирование их зданий. Изучая прогнозы для Порт-о-Пренса, мы видим, что эти черные точки на картах сосуществуют вместе с другими ячейками, где покрытие OSM плотное, подробное и относительно полное - что, возможно, неудивительно, учитывая эпизодический характер картографирования сообществ во многих развивающихся странах, где такие чрезвычайные ситуации землетрясение 2010 г. вызвало всплеск усилий.

Когда районы, населенные домами, школами, поликлиниками и другой важной инфраструктурой, не нанесены на карту, планирование и реагирование на экстремальные явления является сложной задачей. Но простой рабочий процесс машинного обучения, подобный описанному выше, может помочь информировать усилия по краудсорсингу, указав те регионы, где дополнительная картографическая кампания дает наибольшие преимущества.

Благодарности: спасибо Дженни Манникс и Брэду Боттомсу из New Light Technologies, которые внесли свой вклад в этот проект.