Возрождение науки в Турине: DSAA’18

О, милый Турин! Вдали от основных международных маршрутов, по которым бизнесмены едут в Милан, а туристов - в Рим и Венецию, Турин - жемчужина искусства и архитектуры и динамичный центр науки и инноваций.

На прошлой неделе в Турине прошли три громких научных мероприятия: пятая конференция по науке о данных и передовой аналитике (DSAA); Индустриальный день, спонсируемый и проводимый Интеза Санпаоло в новом небоскребе, спроектированном Ренцо Пьяно; и Science Crossroads - ежегодное мероприятие, организованное ISI Foundation для награждения молодых ученых со всего мира стипендиями в знак признания их научных достижений. Франческо Бонки и Фостер Провост, генеральные председатели DSAA (+ команда) и Чиро Каттуто, научный директор Фонда ISI (+ команда), проделали отличную работу, объединив пять полных дней научных посиделки.

Несмотря на то, что программа была очень междисциплинарной, большинство выступлений было объединено общей философской темой: в зарождающуюся эпоху искусственного интеллекта нам, возможно, потребуется пересмотреть наши научные методы, чтобы получить полное представление о разрабатываемых нами технологиях и их этических принципах. подразумеваемое. Иногда этот процесс может повлечь за собой заимствование некоторых забытых элементов нашего прошлого, чтобы быстрее двигаться к более светлому будущему. Вот краткое изложение этих «научных изменений».

Роль моделирования в эпоху больших данных

Механистический взгляд на науку (Алессандро Веспиньяни, Северо-Восточный университет). Алессандро Веспиньяни - современный специалист в области вычислительной эпидемиологии. Он начал свое выступление с краткого обзора истории численных моделей эпидемий, подчеркнув, как их развитие фактически остановилось в 50-х годах. Эти модели, требующие большого количества данных, начали точно работать только после революции больших данных: многомерные и детализированные данные от плеяды государственных и частных провайдеров позволили эпидемиологам с поразительной точностью предсказать распространение таких пандемий, как H1N1, Эбола и Эбола. Зика ». Опьяненное мощью больших данных, научное сообщество исследовало новые прогностические модели, которые все больше основывались на данных и меньше ориентировались на понимание лежащих в основе явлений. Такой образ мышления привел к вопиющим провалам, воплощенным в печально известном фиаско Google Flu Trends. Меня не волнует понимание, пока оно работает - нарратив в корне неверен, утверждает Веспиньяни, выступая за возврат к механистическому подходу. Исследователи должны сначала создать тщательно продуманные модели с заложенными в них знаниями предметной области, а затем интегрировать их в более крупную систему прогнозирования. Использование больших данных и машинного обучения по-прежнему имеет решающее значение для работы этих моделей с максимальной точностью. Он привел примеры того, как данные социальных сетей могут быть использованы для создания современных моделей эпидемий, а методы машинного обучения полезны для создания ансамблей различных моделей. Энтузиасты больших данных, провозгласившие конец теории десять лет назад, возможно, заговорили слишком рано. Его новая красочная книга Составление карты следующей пандемии уже вышла.

Одна модель, чтобы управлять ими всеми (Кристофер Бишоп, Microsoft Research). Существует множество методов машинного обучения. Вопрос, который, должно быть, вспыхнул в умах большинства студентов, изучающих машинное обучение, по крайней мере, однажды: какой из этих подходов самый лучший? К сожалению, в общем случае бесплатного обеда нет: при усреднении по всем возможным задачам любой алгоритм так же хорош (или плох), как и любой другой. А как насчет нейронных сетей? Разве это не волшебство? Что ж, к сожалению, нейронные сети содержат множество предположений и предварительных знаний, что делает их отличными инструментами только для некоторых (хотя и очень важных) классов проблем. Как и профессор Веспиньяни, Крис Бишоп (всемирно известный пионер ИИ и автор пользующейся спросом технической книги по машинному обучению) утверждал, что мы не можем отказываться от знаний предметной области и полагаться только на большие данные : для получения хороших прогнозов нам необходимо делать предположения, основанные на нашем знании проблемы. Только после внедрения этих предположений в модель мы можем обратиться к Big Data для обучения. Но что, если бы мы могли автоматизировать этот процесс? Можем ли мы иметь инструмент, который просит аналитика записать набор предположений и заботится обо всем остальном? Infer.net - это попытка Microsoft Research реализовать это видение. Infer.net предлагает компилятор, который преобразует высокоуровневое описание модели непосредственно в исходный код для выполнения логического вывода. Его гибкость - это его сила: он может справиться с множеством проблем реального мира, и он уже использовался в ряде реальных сценариев использования. Новая книга Бишопа Машинное обучение на основе моделей уже вышла и находится в раннем открытом доступе. Физические копии будут продаваться, а выручка будет соответствовать моему MSR и пойдет на финансирование исследований по муковисцидозу. Итак, по словам Бишопа: пожалуйста, купите книгу, даже если вы ее не читали.

Предел предсказуемости (Клаудиа Перлих, Dstillery). Насколько далеко мы можем повысить точность прогнозов машинного обучения? Во многих реальных задачах модели классификации могут достигать впечатляющей точности. Но это не значит, что эти модели особенно умны. По своей природе модели машинного обучения ориентированы на то, что легко. Например, при классификации модель фокусируется на тех точках данных, которые можно легко отделить от других. К сожалению, экземпляры, которые легко отделить друг от друга, имеют наименьшую ценность. Обладая опытом работы в качестве научного консультанта в Dstillery, Клаудия Перлих разъяснила эту концепцию с помощью ряда примеров, взятых из реальных задач машинного обучения. Классифицировать типы веб-пользователей легко, пока вы не поймете, что большинство ваших истинных плюсов - это боты, которые оставляют очень характерные цифровые следы. Прогнозирование кликов на мобильных устройствах может достигать отличных результатов в основном из-за того, что люди случайно нажимают на ссылки при попытке активировать фонарик на своем телефоне. Наконец, извлекая данные с географической привязкой, вы сможете легко обнаружить множество часто путешествующих людей, но позже поймете, что все они - бортпроводники. Чтобы избежать разочарования, нам нужно остановиться и (снова) вернуться к основам. Ее главный совет - хорошенько подумайте над набором показателей, для которых мы оптимизируем. Слепое использование рейтинга кликов (CTR) часто не является хорошей идеей. Что еще более важно, когда машинное обучение применяется к критически важным задачам, таким как работа полиции или рекомендации по работе, мы должны очень ответственно использовать используемые методы обучения: выбор неправильной метрики может привести к катастрофическим социальным последствиям.

Объяснение многомерных моделей машинного обучения (Фостер Провост, Нью-Йоркский университет). В задаче прогнозирования машинного обучения, когда прирост точности, обеспечиваемый новыми экземплярами обучения, снижается, добавление новых функций является основным путем вперед. Благодаря большему количеству функций модель снова может получить дополнительные очки обучения. Зацикливание на добавлении строк и столбцов в обучающий набор дает чудовищно сложные модели, которые работают хорошо, но вывод которых трудно интерпретировать. Фостер Провост хочет выяснить, почему работают модели с большим размером. Проф. Прово может похвастаться многолетним опытом работы в мире стартапов (он основал 5 успешных проектов), а его многогранный опыт дает ему хорошее преимущество в способности решать реальные проблемы, решая лежащие в их основе фундаментальные проблемы. Он справедливо утверждал, что перечисление основных прогнозируемых переменных (возможно, из миллионов) - не лучший способ дать объяснения. Вместо этого он утверждает, что к объяснимости следует подходить как к проблеме причинного вывода: поиск минимального доказательства, которое, если бы его не было, привело бы модель к другому решению. В алгоритмической установке причинный вывод возможен, потому что мы потенциально можем наблюдать выходы всех возможных входов. Он использовал это рассуждение для объяснения задачи классификации документов, но метод, который он предлагает, является очень общим, поскольку он полностью не зависит от алгоритма обучения, чтобы сосредоточиться только на входных и наблюдаемых выходах. Книга профессора Провоста Data Science for Business уже вышла. Он тоже художник: недавно вышел его первый альбом Mean Reversion (который вдохновил название этого поста). Проверить это!

Освещая темную сторону технологий

Предотвращение апокалипсиса интеллектуальных технологий (В. Р. Ферос, SAP). Десять лет назад веб-технологии были почти хороши: они объединяли людей и информацию для всех. За последние несколько лет этот позитивный взгляд на технологии кардинально изменился. В. Р. Ферос, дальновидный старший вице-президент SAP, перечисляет несколько примеров долгосрочных негативных последствий использования технологий, начиная от возникающих поведенческих проблем при взаимодействии детей с помощниками по дому до смертей, вызванных распространением фейковых новостей в местных сообществах. Миссия Ferose состоит в том, чтобы узнать, как мы можем понять долгосрочные последствия технологий и направить их на достижение хороших результатов. Он предложил пять возможных путей продвижения вперед. Первый - это децентрализация: когда данные контролируются немногими, их труднее предотвратить неправомерное использование (Inrupt Тима Бернерса Ли - это попытка вернуть Интернет в руки The People). Второе - это изменение повествования: он привел убедительный пример описания как крутых способностей уникальных сильных сторон людей с ограниченными возможностями и того, как их можно использовать для увеличения количества предложений о работе. Третий - автоматизация политик: в идеале, любое технологическое требование, установленное законом, должно автоматически распространяться на каждое существующее развертывание и реализацию. Четвертый - это изменение показателей обучения: способ, которым методы машинного обучения оптимизируют свои целевые функции, может опасно усилить существующие аномалии (например, дискриминацию). Последнее - это демократизация: не только несколько миллиардеров должны решать мировые проблемы, особенно когда у них есть колоссальный конфликт интересов; он проиллюстрировал эту концепцию цитатой Ганди: Важно не то, что делать с деньгами, а чистота средств, которые вы зарабатываете.

Гордиев узел предубеждений (Рикардо Баеза-Йейтс, NTENT). Интернет также изобилует предвзятостями. Рикардо Баеза-Йейтс, один из отцов современного информационного поиска, недавно посвятил большую часть своей работы изучению того, как предубеждения возникают в Интернете и взаимодействуют друг с другом. Предубеждения бывают всех видов. Большая часть онлайн-контента создается крошечной долей веб-пользователей; мы потребляем этот контент через интерфейсы, которые предсказуемым образом привлекают наше внимание; информация, к которой мы получаем доступ, фильтруется и ранжируется с помощью алгоритмов, которые, в свою очередь, обучаются на основе предвзятых поведенческих данных. Эти предубеждения имеют очень разные корни (культурные, статистические, когнитивные), и все запутаны в гордиевом узле, который невозможно развязать (и, вероятно, было бы абсурдным) отрубил его и взмахом меча). Некоторые решения, указанные Рикардо, напоминают рецепты Фенроуза. Он выступает за возврат от парадигмы человек в петле к философии человек в центре, что предполагает принятие более эффективных политик и более сознательное использование больших данных (переходом при необходимости на малые данные). В заключение он дал оптимистичное опровержение последней книги Ноя Харари, оставив у аудитории надежду на то, что преимущества ИИ значительно перевешивают его потенциальные риски.

Снижение предвзятости обучения (Маргарет Митчелл, Google). Попробуйте сыграть в эту небольшую игру: взгляните на изображение бананов и придумайте пять терминов для его описания. Сделанный? Вполне вероятно, что в вашем списке слов не будет цвета этих бананов. Это потому, что в нашем мозгу хранится представление о реальности, которое не обязательно отражает то, что происходит в мире: в нашем сознании бананы желтые, и нам не нужно об этом упоминать, потому что это кажется очевидным. Точно так же слово доктор ассоциируется с мужской фигурой, а слово пара - с гетеросексуальными партнерами. Описывая вещи вокруг нас, мы сообщаем о неожиданных переживаниях (убийство) и замалчиваем очевидные и очень частые факты (человек моргает). Онлайн-данные, которые мы используем для обучения моделей машинного обучения, пропитаны такими предвзятыми отношениями к отчетности людей и распространяются по всем автоматизированным конвейерам наших алгоритмических систем (явление, называемое Сетевой эффект предвзятости или отмывание предвзятости), что в конечном итоге приводит к усилению несправедливости. Маргарет Митчелл - ученый, работающий над искусственным интеллектом в Google, и ей интересно понять, как мы можем уменьшить предвзятость в машинном обучении. Это явные примеры того, как эти предубеждения проникают в модели машинного обучения, включая новейшие ломброзийские алгоритмы, обнаруживающие преступников и гомосексуалистов по лицам, которые доктор Митчелл тут же опроверг. Затем она предложила несколько способов смягчения предубеждений, наиболее интересным из которых является состязательный подход. Модель одновременно обучается предсказателю и противнику: цель состоит в том, чтобы максимизировать способность предсказателя предсказывать переменную результата, сводя к минимуму способность злоумышленника предсказывать защищенный атрибут.

Преодоление пузыря фильтров с помощью алгоритмов (Арис Гионис, Университет Аалто). Эхо-камеры - еще один аспект предубеждений в социальных сетях. Арис Гионис, профессор университета Аалто и недавно назначенный научный сотрудник ISI, представил три возможных алгоритмических решения, чтобы взорвать эти пузыри фильтров или, по крайней мере, смягчить их эффект. Первая стратегия смягчения последствий - повышение осведомленности. Он предлагает сделать это, отображая пользователей и контент из Twitter в скрытое пространство, которое позволяет автоматически вычислять оценку идеологии, которая может быть связана с пользователем. Второй - максимизировать разнообразие контента, с которым пользователи обычно сталкиваются в своих социальных кругах (расскажи мне что-нибудь, чего мои друзья не знают), что оказывается NP- сложная задача также в приблизительной версии. Последний - это отбор людей, которые являются хорошими представителями противоположных идеологий, но с максимально высоким согласием. Однако в заключение он предупредил: мы не знаем, в какой степени наши попытки уменьшения поляризации могут на самом деле привести к обратным результатам и усилить конфликт, а не уменьшить его.

Понимание коллективных явлений в интересах социального развития (Мартон Карсаи, Высшая школа экономики в Лионе). Понимание социальных явлений в Интернете - это первый шаг к превращению технологий во что-то, что улучшает жизнь людей. Мартон Карсай, специалист по сложным системам, владеющий наукой о данных и вычислительными методами, изучил крупномасштабные онлайн-данные, чтобы связать коллективные социальные явления с социальным развитием. Он изучал социальное влияние в социальной сети Skype, взаимосвязь между использованием языка и социально-экономическим статусом и то, как на гомофилию влияет экономический статус. В этой последней работе он рассмотрел впечатляющий набор данных, который соответствует мобильным звонкам и истории кредитной информации, и обнаружил, что социальные классы гомофильны, а самый богатый класс имеет гораздо более тесные связи, чем более бедные. Его методы и данные открывают множество возможностей для подтверждения теорий социальных наук о классовой мобильности (теория Бордье - первое, что приходит на ум). Профессор Карсай также является одним из получателей стипендии ISI.

Антиутопия по замыслу управления (Дейрдре Маллиган, Калифорнийский университет в Беркли). Многие выступавшие указали на важность разумной политики, чтобы спастись от потенциальных рисков, связанных с новыми технологиями. Нам посчастливилось послушать эксперта в этой области: Дейрдре К. Маллиган, профессора права в Школе информации Калифорнийского университета в Беркли, академика, стоявшего на переднем крае разработки новых политик управления конфиденциальностью. По словам профессора Маллигана, мы уже живем в эпоху управления по замыслу: мы используем и разрабатываем технологические системы для продвижения государственной политики. Даже если управление с помощью технологий - довольно соблазнительная концепция, она признает, что на данный момент этот подход страдает серьезными ограничениями. Чтобы проиллюстрировать свою точку зрения, она рассказала истории о четырех известных случаях, в которых законы и технологии противоречили по-разному: война за шифрование Apple против ФБР; Общий регламент ЕС по защите данных (GDPR); Закон о прекращении пиратства в Интернете (SOPA) и онлайн-голосование. GDPR - хороший репрезентативный пример того, как сложно обеспечить конфиденциальность по дизайну: трудно предвидеть, какие последствия GDPR могут иметь для будущего бизнеса и желательных свойств, ортогональных конфиденциальности, таких как справедливость. К сожалению, неспособность оценить влияние выбора дизайна на будущее развитие является одним из проклятий дизайна в целом (прочтите историю Роберта Мозеса в качестве примера в области городского дизайна). Однако проф. Маллиган внес несколько предложений о том, как можно улучшить индивидуальное управление. 1) Мы должны разрабатывать скромно и не диктовать, что именно делать, потому что трудно предсказать будущее; 2) Мы должны улучшить техническую экспертизу регулирующих органов; 3) Нам необходимо держать общественность в курсе обсуждений политик. Важность этих положений становится очевидной, если подумать, что даже выбор простого порога в системе классификации становится тяжелой политической ответственностью, когда система обладает способностью влиять на жизнь многих.

Отображение здоровья, культуры и благополучия

Составление карты смертности от загрязнения воздуха (Франческа Доминичи, Гарвардский университет).
Только в США тысячи людей ежегодно умирают из-за загрязнения воздуха. Франческа Доминичи, междисциплинарный статистик, которая построила звездную карьеру, связав большие данные с результатами для здоровья, рассказала о своем опыте изучения этого безмолвного убийцы. Она разработала модель нейронной сети, которая использует данные наземного мониторинга воздуха и спутниковые измерения для оценки суточных уровней загрязнения в США с очень высокой степенью детализации. Сопоставив эту информацию с данными Medicare (460 миллионов медицинских карт, охватывающих 97% населения в возрасте 65 лет и старше), она показала, что воздействие загрязнения воздуха убивает тысячи пожилых людей каждый год. Этих людей можно было спасти, просто сократив 1 микрограмм мелких твердых частиц на кубический метр воздуха ниже нынешних стандартов. Обилие данных, которые она изучила, открывает широкие возможности, но создает и проблемы. Она обсудила, как усиливается угроза неизмеримой искажающей систематической ошибки, а причинно-следственную связь еще труднее оценить с помощью наблюдательных исследований. Подробнее о ее проекте в этом подкасте.

Пространственный ИИ для здоровья и благополучия (Россано Скифанелла, Университет Турина). Окружающая среда влияет на нас способами, которые мы часто не осознаем. Получив стипендию ISI, профессор Россано Скифанелла рассказал о своем необычном исследовательском путешествии по картированию городского пространства с целью улучшения благосостояния с помощью новых услуг и политики дизайна. Он утверждал, что благополучие связано с нематериальными аспектами городской жизни. На протяжении многих лет он собирал данные из социальных сетей и множества других источников, чтобы построить многоуровневую модель нематериальных аспектов, определяющих городское пространство. Он нанес на карту сенсорные ощущения, которые люди испытывают во время прогулки по городу (визуальная красота, запах, звук), проходимость улицы, действия, которые происходят в помещении и на улице, и даже атмосферу. кварталов. Он также работал над измерением того, как физические преобразования города могут повлиять на субъективное благополучие. Используя данные мобильного оператора, он изучил влияние строительства крупномасштабных городских инфраструктур на поведение горожан. Он также рассказал о своей недавней работе по картированию здоровья горожан с использованием детальных и крупномасштабных медицинских данных. В целом впечатляющий набор исследований о городской жизни, часть из которых собрана на портале goodcitylife.org.

Изучение географии через призму Twitter (Бруно Гонсалвес, JP Morgan). Бруно Гонсалвеш - физик, компьютерный ученый, новый сотрудник ISI и плодовитый твиттеролог . В своем выступлении он представил наглядный обзор того, как твиты с географической привязкой могут быть использованы для изучения культурной и социальной динамики в мировом масштабе и с впечатляющей детализацией. Он изучил множество языков, на которых пишут твиты в городах, чтобы оценить уровень их этнической интеграции. Он также посмотрел, как обсуждение темы распространяется в пространстве, чтобы определить города, задающие тенденции, и определить следующие за ними городские центры (бумага умело использует энтропию переноса для оценки влияния между городами). Наконец, он представил сравнительное исследование Twitter и Sina Weibo, чтобы предостеречь нас о репрезентативности данных: наблюдаемые характеристики явления могут сильно различаться в зависимости от социальных сетей, используемых в качестве платформы для анализа. Итак, выберите подходящие данные, чтобы ответить на вопрос вашего исследования.

Что еще?

Так много всего происходило, включая больше параллельных сессий с научными презентациями и обучающими программами, отличный общественный ужин и всевозможные торжества. В этом посте я сообщил о некоторых презентациях, которые я видел, но ознакомьтесь с программой DSAA для получения дополнительных указателей.

До скорого…

В следующем году «Перекресток науки», как обычно, пройдет в Турине. Следующее издание DSAA будет проходить в Вашингтоне, округ Колумбия. Надеюсь, организаторы сохранят традицию проведения индустриального дня, в этом году он был потрясающим!

Между тем, если вы окажетесь в Великобритании в декабре, вам следует подумать о том, чтобы заехать на Конференцию по комплексным сетям в Кембридже. Надеюсь увидеть тебя там!

Спасибо за прочтение! Если вам понравился пост, нажмите кнопку аплодисментов 👏. Вы также можете связаться со мной в Твиттере, чтобы поделиться идеями или дать предложения.