Инструменты и методы науки о данных для визуализации воздействий изменения климата и смягчения последствий на основе природных решений.

Авторы: Нишрин Качвала, Дебадитья Шом и Оскар Чан

День ото дня, по мере того как мы генерируем экспоненциально больше данных, мы также анализируем их сложность и потребляем больше. Фильтрация релевантности важна, чтобы понять суть данных, находящихся перед нами. Это общеизвестный факт, что человеческий мозг поглощает изображение в 60 000 раз быстрее, чем текст. И что около 65% людей имеют склонность к зрению.

Чтобы рассказать историю данных, связанных с изменением климата, помимо анализа и исследования, нам нужно было проанализировать тенденции и поддержать принятие решений. Визуализация информации необходима для практической науки о данных - для изучения данных, их предварительной обработки, настройки модели на данные и, в конечном итоге, для получения информации для принятия мер.

Ни одна история данных не будет полной без включения отличных наглядных материалов.

Проект - Понимание влияния решений, основанных на природе, на изменение климата

Институт мировых ресурсов (WRI) стремился понять региональный и глобальный ландшафт природных решений (NbS).

  • Как некоторые платформы NbS борются с опасностями климата?
  • Какие типы решений NbS адаптированы?
  • Какие существуют препятствия и возможности и т. Д.

Первоначально основное внимание уделялось трем платформам: AFR100, Cities4Forests и Initiative20x20, а затем масштабирование работы на большее количество платформ.

Более 30 инженеров Omdena AI работали над этой проблемой НЛП, чтобы получить несколько практических идей, разработать рекомендации и систему вопросов и ответов, основанную на знаниях, для запроса данных с платформ NbS и извлечения мнений из данных для поиска потенциальных пробелов. Тематическое моделирование применялось для получения доминирующих тем из данных, анализ сети веб-сайтов организаций, а статистический анализ помог изучить участие воздействий изменения климата,« вмешательств и экосистем для трех платформ.

Используя Streamlit, мы создали интерактивное веб-приложение с общим доступом (панель инструментов) для увеличения масштаба результатов НЛП и получения практических сведений о решениях, основанных на природе. Приложение Streamlit было развернуто в Интернете с помощью Heroku. Основным преимуществом использования Streamlit является то, что он позволяет разработчикам создавать сложную информационную панель с несколькими элементами, такими как графические объекты Plotly, таблицы и интерактивные управляющие объекты, со сценариями Python вместо дополнительных HTML-кодов для дальнейшего определения макета. Это позволяет быстро с минимальным количеством кодов включать несколько результатов проекта на одной панели инструментов.

Обзор панели управления

Панель управления состоит из пяти основных разделов результатов, в которых пользователи могут перемещаться по каждому разделу, используя раскрывающееся меню навигации на левой боковой панели, и использовать другие функции на боковой панели, чтобы выбрать контент, который они хотели бы видеть. . Ниже будут описаны компоненты в каждом из разделов.

Просмотр карты хороплета

Картограммы используют цвета в расходящемся масштабе, чтобы представить изменившуюся ситуацию. Различная цветовая шкала для стран отражает масштабы изменения климата с течением времени.

В анализе рассматриваются годовые данные о климатических и ландшафтных параметрах на уровне страны, таких как тип почвы, температура и влажность почвы, по странам-участницам основных платформ. Для оценки обезлесения использовались наборы данных Hansen и MODIS Land Cover Type. Для анализа изменения температуры использовался набор данных MODIS Land Surface Temperature. Для оценки деградации земель использовался набор данных NASA-USDA SMAP Global Soil Moisture. Ежегодные изменения климатических параметров рассчитываются по сравнению с самым ранним годом, доступным в данных. Расчетные изменения каждый год наносятся на хороплетные карты на основе предопределенной расходящейся цветовой шкалы, и пользователи могут выбрать год для просмотра с помощью ползунка над картой на приборной панели.

В качестве примера возьмем изменение температуры в странах-участницах. График показывает, что среднегодовая температура в большинстве стран Южной Америки и стран Центральной и Восточной Африки в 2019 году снизилась примерно на 0,25–1,3 ° C по сравнению с 2015 годом. Напротив, в странах-участницах в северной Африке наблюдается повышение уровня тепла. и Мексика, где температура в этих странах повысилась по сравнению с 2015 годом. Таким образом, такую ​​разницу в изменении температуры можно легко представить с помощью расходящейся цветовой шкалы, где красный означает повышение температуры, а синий - снижение.

Просмотр тепловой карты

Тепловые карты отражают интенсивность внимания со стороны платформ природных решений и то, как каждый из климатических рисков соотносится с вмешательством NbS на разных платформах. Две тепловые карты иллюстрируют измерения интенсивности внимания с каждой платформы NbS. Первый - это периодичность документирования, а второй - расчет риска для оценок соответствия экосистемы. Пользователи могут фильтровать интересующую их визуализацию данных, используя флажок на боковой панели, раскрывающееся меню в верхнем левом углу и выбирая соответствующую платформу NbS.

В качестве примера на приведенной выше тепловой карте показано количество документов и веб-сайтов, связанных с воздействием климата и соответствующими стратегиями вмешательства в климат с платформы инициативы 20x20. Пользователи могут видеть, что проблема деградации земель привлекла наибольшее внимание платформы, где восстановление, лесовозобновление, восстановительное земледелие и агролесоводство являются основными стратегиями воздействия на климат, которые коррелируют с проблемой деградации земель. Кроме того, тепловая карта показывает, что внимание к решениям для некоторых климатических рисков, таких как лесные пожары, загрязнение воздуха и воды, риск бедствий, лесные пожары, береговая эрозия, на инициативной платформе 20x20 относительно ограничено по сравнению с другими рисками.

Помимо самой тепловой карты, дизайн приборной панели позволяет создавать ссылки на внешние ресурсы на основе информации, представленной на тепловой карте. Подобно интерактивному инструменту в Платформе доказательств естественных решений Оксфордского университета, где пользователи могут получить доступ к внешним случаям, щелкнув тепловые карты, пользователи могут использовать раскрывающиеся меню под тепловой картой для просмотра списка ссылок и документы для каждого из представленных номеров документов. Например, на прилагаемом рисунке показаны результаты, когда пользователи выбирают усилия по восстановлению в ответ на деградацию земель по инициативе 20x20, где пользователи могут прочитать краткие описания страницы, ключевые слова и получить доступ к внешнему сайту, щелкнув гиперссылку.

Возможный пробел / определение решения

В этом разделе представлены результаты наших моделей анализа настроений. Цель заключалась в том, чтобы определить, какие проекты / публикации / партнеры основных платформ NbS устраняют потенциальные пробелы или решения по изменению климата. Разрыв - это негативное мнение, а это означает, что он оказывает негативное влияние на изменение климата. Точно так же решение - это положительное мнение, которое подразумевает, что оно оказывает положительное влияние на изменение климата. Результатом этой подзадачи анализа настроений стали три иерархических фрейма данных, каждый по проектам, публикациям и партнерам AFR100, Initiative20x20 и Cities4forests. Чтобы представить эти огромные фреймы данных в компактной форме, мы использовали древовидную карту и графики солнечных лучей. Диаграммы древовидной карты визуализируют иерархические данные с помощью вложенных прямоугольников. Графики солнечных лучей визуализируют иерархические данные, охватывающие радиально наружу от корня до листьев. Иерархическое группирование было выполнено на основе трех платформ, а затем показано внутри платформы, какие страны есть, а затем связанные с ними проекты, а затем, если вы нажмете глубже, отобразится описание и ключевые слова для этого проекта. Размер прямоугольной рамки / сектора показывает, насколько точно существует потенциальный пробел / решение.

Графический анализ

Эта раскрывающаяся вкладка состоит из сетевого анализа и графиков знаний. Графики знаний (KG) представляют необработанную информацию (в нашем случае тексты с платформ NbS) в структурированной форме, фиксируя отношения между сущностями.

В Сетевом анализе понятия (узлы) идентифицируются по словам в тексте, а края между узлами представляют отношения между понятиями. Сеть может помочь визуализировать общую структуру основного текста в компактной форме. Кроме того, становятся видимыми скрытые отношения между понятиями, которые не выражены в тексте явно. Визуализация текстов как сетей позволяет сосредоточиться на важных аспектах текста, не читая больших объемов текстов. Наглядные материалы для графов знаний и сетевого анализа можно увидеть в GIF-изображении выше.

Система вопросов и ответов, основанная на знаниях

Основанная на знаниях система вопросов и ответов NLP направлена ​​на ответы на вопросы в контексте извлеченных из текста данных с платформы NbS и PDF-документов, доступных на веб-сайтах платформы NbS. Система построена на платформе Deepset.ai Haystack с открытым исходным кодом и размещена на виртуальной машине, доступной через REST API и Streamlit Dashboard.

Подробнее о системе Q&A NLP читайте в этой статье.

Система рекомендаций

Система рекомендаций использует фильтрацию на основе содержимого или совместную фильтрацию. Совместная фильтрация использует «мудрость толпы», чтобы рекомендовать элементы. Наши совместные рекомендации основаны на показателях из данных Всемирного банка и схожести ключевых слов с использованием модели Starspace от Facebook. На панели инструментов можно выбрать несколько индикаторов для платформы и платформ, связанных с выбранной.

Рекомендации по фильтрации на основе содержания основаны на описании элемента и профиле предпочтений пользователя.

Контентная фильтрация позволяет угадывать похожие организации, проекты, новостные статьи, статьи в блогах, публикации и т. Д. Для выбранной организации. Модель звездного пространства использовалась для получения вложения слов, а затем был проведен анализ сходства, сравнив описание выбранной организации и всех наборов данных другой организации. В качестве опций можно выбрать различные проекты, публикации, новостные статьи и т. Д., С помощью которых можно рекомендовать связанные организации.

Анализ ключевых слов партнерских организаций

Этот раздел включает интуитивно понятную трехмерную t-SNE-визуализацию всех ключевых слов / тем в 12801 уникальном URL-адресе на 34 веб-сайтах партнерских организаций.

Целью каждой организации, отображаемой на метке при наведении курсора, был результат моделирования тем с использованием скрытого распределения Дирихле (LDA).

Что такое график t-SNE?

t-SNE - это алгоритм уменьшения размерности, который хорошо подходит для визуализации данных большой размерности. TSNE означает t-распределенное стохастическое соседнее вложение. Идея состоит в том, чтобы встраивать точки большой размерности в точки низкой размерности таким образом, чтобы учесть сходство между точками.

Мы получили вложения для каждого URL-адреса целиком с помощью широко известного Sentence Transformer от HuggingFace. Эти многомерные вложения использовались в качестве входных данных для модели t-SNE, которая давала выходные проекции в 3-х измерениях. Эти проекции показаны ниже в интерактивной 3D-визуализации.

Преимущества этого изображения?

В этих 34 организациях было 12801 URL-адрес, просмотр всех которых и выяснение того, о чем говорит каждый URL-адрес, займет огромное количество времени, поскольку на некоторых веб-сайтах в разделе «О нас» содержится около 1 миллиона слов. Это изображение может быть полезным для всех, кто хочет знать, что обсуждает каждая организация, без необходимости вручную просматривать описания этих URL.

Сегодня визуализация данных стала неотъемлемой частью истории, больше не приятным улучшением, а добавлением глубины и перспективы истории. В нашем случае географические графики, тепловые карты, сетевые диаграммы, древовидные карты, раскрывающиеся списки и фильтрующие элементы, трехмерные интерактивные графики шаг за шагом проводят читателя через повествование.

Мы рассмотрели только несколько визуальных элементов из множества доступных и разработанных энтузиастами Omdena Data Science. С помощью Visual Dashboard мы надеемся обеспечить более надежную связь между критическим пониманием решений, основанных на природе, и их адаптацией для зрителя. Информационная панель является портативной, и ее можно использовать совместно с сообществом, занимающимся вопросами изменения климата, что способствует вовлечению и рождению новых идей.

Эта статья была изначально опубликована в блоге Omdena.