Это сообщение в блоге - четвертое в серии интервью с специалистами по обработке данных и новаторами, работающими на стыке машинного обучения и экологической устойчивости. Поскольку технологические инновации продолжают проникать в новые отрасли, крайне важно уделять приоритетное внимание приложениям в секторах окружающей среды (и развития). Мы можем убедиться, что эти пути созданы, углубившись в истории, стоящие за титулом ученого по данным. Цель этой серии блогов - расширить признание способности науки о данных показать, как мы решаем сложные экологические проблемы, которые имеют значение.

Fraym - компания, занимающаяся геопространственными данными, которая использует собственные модели машинного обучения для предоставления информации о населении в Африке, Азии и Латинской Америке. Swetha Ramaswamy была первым специалистом по геопространственным данным Фрайма и был пионером в использовании Фраймом машинного обучения и искусственного интеллекта. Сейчас она работает директором по науке о данных, управляя группой специалистов по обработке данных и пространственных аналитиков, ответственных за создание и развитие методов пространственного моделирования для прогнозирования социально-демографических результатов в регионах, испытывающих нехватку данных.

Какие проблемы пытается решить Фрайм и какую роль играет наука о данных?

Фундаментальная проблема, которую пытается решить Фрайм, - это проблема нехватки данных. Основатели Fraym работали на различные многосторонние организации, занимающиеся вопросами развития, и были разочарованы отсутствием доступной информации, которая могла бы помочь им ответить на вызовы на рынках, на которых они работали. Наша работа носит многосторонний характер и затрагивает самые разные темы, от общественного здравоохранения до доступа к энергии и т. Д. климатическим потрясениям и уязвимости. В конце концов, мы пытаемся ответить на вопрос: как мы можем предсказать, как выглядят люди в областях, где данные недоступны? Например, очень сложно поддерживать или укреплять политику в области образования, не имея представления об имеющихся уровнях образования или о том, какие сообщества не имеют доступа к образовательным ресурсам.

Мы используем передовые модели машинного обучения для получения данных о населении в этих регионах. Геопространственные данные, данные дистанционного зондирования и спутниковые изображения играют огромную роль в нашем процессе моделирования, потому что они являются единственными последовательными доступными данными для многих рынков, на которых мы работаем. Наши модели объединяют данные обследований домашних хозяйств со спутниковыми изображениями в качестве независимых переменных. Другими словами, спутниковые и пространственные ковариаты являются предикторами, используемыми в наших моделях. Даже в тех областях, где мы используем опросы, а не традиционное моделирование, то, как мы используем, обрабатываем и очищаем эту информацию, все соответствует концепции науки о данных.

Вы больше относитесь к пространственному анализу или традиционному аналитику данных? Когда вы начали добавлять пространственные методы в свой традиционный набор инструментов для науки о данных?

На самом деле я бы сказал, что я не был ни тем, ни другим. Оба моих родителя были инженерами, и я рос, убегая от компьютеров! Я учился в аспирантуре государственной политики и потратил много времени, пытаясь ответить на тот же вопрос, на который пытается ответить Фрайм, а именно, как работать в средах с ограниченными данными, сталкиваясь с множеством ограничений, связанных с бедностью, безопасностью и доступностью. Это был вопрос, который запомнился мне. В области международного развития существует лучшая практика использования крупномасштабных рандомизированных контрольных испытаний как способа оценки качества, прогресса, а также мониторинга и оценки. Эта практика является сложной задачей на многих рынках из-за непомерно высоких затрат, невозможности частого проведения испытаний и соблюдения этических норм. Я чувствовал, что должен быть способ извлечь большую пользу из меньших наборов данных. Все одержимы большими данными, но я хотел знать, чему мы можем научиться из 5 точек данных? У нас есть доступ к статистике на национальном и государственном уровне, но когда дело доходит до программ развития, нам необходимо углубиться в детали. на уровень сообщества.

Моя степень в области государственной политики охватывала курсовую работу по мониторингу и оценке, а также обследования домашних хозяйств. Когда я начинал в Fraym, мой опыт был больше в области дистанционного зондирования, включая ландшафтный анализ и традиционные классификации земного покрова, но Fraym был первым местом, где я смог совместить эти две дисциплины.

Какие из самых сложных проблем сейчас решает ваша команда по анализу данных?

Доступ, управление, очистка и обработка геопространственных данных - это большая проблема. Google Earth Engine позволяет сделать это очень просто, поэтому он получил высокую оценку, но недоступен для коммерческого использования. Это был захватывающий процесс, когда мы пытались найти лучший путь вперед с имеющимися у нас ресурсами.

Большая часть обучающих данных, которые мы используем, неструктурированы или непоследовательно структурированы, потому что данные опросов очень трудоемки. Несоответствие бывает даже тогда, когда опросы проводятся одними и теми же людьми в течение одного года. Чтобы понять, почему это происходит, подумайте, что означает определение и определение «улучшенной воды». Во многих странах доступ к улучшенной воде означает домохозяйство с водопроводной водой или защищенным колодцем. В других частях света улучшенная вода означает воду в бутылках; водопроводная вода никогда не считалась бы улучшенным водным ресурсом. Когда мы пытаемся получить представление о разных регионах и странах для одной и той же переменной, мы должны тщательно подумать о том, как объединить различные категории информации, которые имеют смысл для контекста, в котором мы работаем. Если мы пытаемся предсказать, какие домохозяйства имеют доступ Что касается улучшенной воды, то это определение и категории, которые в нее попадают, сильно различаются и часто не имеют одного и того же названия. Большинство этих опросов были разработаны, чтобы ответить на конкретные вопросы политиков в контексте и тематической области отдельной страны. Данные структурированы таким образом, чтобы он был легко доступен для этого пользователя. Разработка рабочего процесса, который позволит нам работать с этими данными, имеет решающее значение, но требует больших затрат человеческих ресурсов, поскольку люди должны определять категории каждый раз, когда приходит опрос.

Как вы преодолеете проблемы при сборе данных, например, в тех областях, где данные не могут быть легко собраны из-за удаленности или соображений безопасности?

Это одна из самых серьезных проблем, с которой мы сталкиваемся. Даже с имеющимися у нас данными и входными данными учесть изменчивость сложно. Чтобы решить эту проблему, мы используем проверенные на международном уровне источники, которые работают совместно со статистическими управлениями странового уровня. У них есть стимул собирать эти данные, и у них достаточно странового контекста, чтобы собирать целенаправленную информацию. При выборе обучающих данных и функций для наших моделей необходимо тщательно продумать, как уловить различия на уровне страны и города.

Учитывая некоторые непростые вопросы, с которыми сталкиваетесь вы и ваша команда, насколько важно иметь опыт работы в областях, в которых работает Фрайм?

Самое захватывающее в работе в Fraym заключается в том, что большая часть команды, даже команда по анализу данных, работает в самых разных областях. Вначале знание предметной области было всем, потому что большой процент времени уделялся кабинетным исследованиям и оценке культурного контекста. До недавнего времени мы не рисковали расширять нашу деятельность за пределы Африки, потому что большая часть нашего опыта в этой области была сосредоточена на континенте.

В данных легко потеряться, но работа напрямую с нашими клиентами показывает, насколько лучше можно получить понимание. Работа в среде, в которой нас ограничивают доступность данных, означает, что мы сразу же задаемся вопросами, на которые людям действительно нужны ответы. Эти клиенты приходят к нам, потому что больше нигде не могут найти ответов. Мы должны определить, как объединить несколько разных типов данных, чтобы ответить на этот вопрос. Чем больше мы работаем напрямую с партнерами, клиентами и контактами на уровне сообщества, тем лучше становится наша работа и тем глубже мы можем проникнуть в определенные сектора.

В чем вы видите возможности использования новых данных и алгоритмов для продвижения своей работы?

Повторяющаяся тема, с которой мы сталкиваемся, - это то, как контексты меняются с течением времени. Несколько месяцев назад мир выглядел совершенно иначе, чем сейчас. Контексты могут быстро меняться на местах с эффектами запаздывания, которые сохраняются годами. Это коренным образом меняет образ жизни людей и внешний вид стран. Проблема в десять раз усугубляется в областях, которые уже испытывают трудности со сбором данных, потому что мы не можем отслеживать данные так часто, как хотелось бы.

У нас есть разумный способ оценить, как обстоят дела в стране сейчас и в конкретный момент времени. Можем ли мы сделать это в предыдущие и будущие годы? Мы смогли оценить и провести поверхностную оценку воздействия, сравнив разные годы съемок с данными, полученными со спутниковых снимков за разные годы. Мы можем комбинировать данные и изображения 2010 года с привязанными ко времени функциями для создания прогноза. Это дает хорошее представление о том, что происходит в данный момент, но в прошедшие годы мы хотим знать, изменились ли отношения между нашими входными данными и нашими функциями. Есть ли способ независимо смоделировать изменения с течением времени, не полагаясь на спутниковые снимки? Это важные и волнующие вопросы, которые нам предстоит решать.