Научная конференция по открытым данным 2018 г.

Недавно мне посчастливилось выиграть бесплатный билет на Open Data Science Conference 2018 в Бостоне от Женщины, которые кодируют. Я вернулся с конференции два дня назад, и вот мое резюме основных моментов конференции, а также проекты, которые я вдохновил повторить в этом месяце.

Презентации, из которых я многому научился

Большинство докладов были потрясающими, и было действительно трудно сделать выбор, что посетить. Я посетил более 10 лекций и семинаров, но больше всего узнал от следующих трех спикеров.

Автоматическое суммирование текста документов в масштабе от Guilherme de Oliveira из Dataiku.

Презентация предоставила мне достаточно информации, чтобы воспроизвести некоторые примеры самостоятельно. Теперь я знаю, что могу использовать общедоступный набор данных с электронными письмами Enron, удалять его метаданные, удалять стоп-слова и сопоставлять слова с их базой. Затем я могу запустить статистическую модель и посмотреть, какие слова/темы наиболее часто используются в наборе данных. По сути, я изучил основные шаги для алгоритмического анализа больших наборов документов, комментариев или других текстовых файлов.

Проект Feels: модели глубокого текста для предсказания эмоционального резонанса статей New York Times автора Александра Спангера.

Способность Алекса очаровывать и находить общий язык с аудиторией было зрелищем. Весь разговор был похож на неформальную беседу между ведущим и более чем 150 людьми в аудитории. Это определенно умение и немного таланта, чтобы управлять такой большой толпой в очень разговорной манере, поощряя вопросы и пробуждая любопытство.

Целью Project Feels является прогнозирование эмоционального воздействия статей NYT на читателей с целью рекомендации релевантных статей или рекламы. Исходный набор данных был получен с помощью Amazon Mechanical Turks, которые пометили около 20 000 статей на основе эмоций, которые эти статьи вызывали, таких как скука, интерес, любовь, страх и т. д. Доклад был очень структурированным и дал мне хорошее понимание того, как подойти к вопросу данных и какие инструменты использовать.

От цифр к повествованию: рассказывание историй на основе данных от Исака Рейеса

В этом докладе был представлен краткий обзор лучших практик визуализации данных. В нем было много интересных примеров диаграмм данных из популярных СМИ и даже личной жизни спикера. Исаак сослался на героя визуализации данных Эдвард Тафте и школу гештальта с ее законами подобия, близости и замкнутости. Представлена забавная формула: соотношение данных и чернил = количество чернил данных / общее количество чернил, использованных для создания графики. В идеале это отношение должно быть близко к 1. Это означает, что все чернила, используемые для создания графики, используются для изображения данных в графике, а не для окрашивания фона или добавления других нефункциональных украшений. Эта формула напомнила мне, что прежде всего визуализации должны показывать, а не скрывать данные. Доклад был отличным напоминанием об основных принципах проектирования, о которых следует помнить при составлении отчетов.

Выводы

Было здорово услышать от некоторых молодых спикеров, как мужчин, так и женщин. Это показало мне, что каждый, независимо от возраста и пола, может работать над важными проектами по работе с данными. Важно иметь идею, проверять ее, документировать результаты, размышлять, повторять и повторять, пока не будет получено достаточно результатов, которыми стоит поделиться.
Несколько презентаций вдохновили меня на попытку воспроизвести проекты, связанные с обработкой естественного языка. Например, мне интересно проанализировать набор данных электронной почты Enron и научиться обобщать большие документы с помощью модели машинного обучения под названием Скрытое распределение Дирихле.
Я хотел бы узнать больше и попробовать следующие библиотеки Python для анализа больших текстовых файлов: beautifulsoup для анализа файлов XML и HTML (например, комментариев на странице Facebook) и gensim для исследовать повторяющиеся образцы слов в больших документах/текстовых файлах (например, электронные письма Enron).
Самое главное, конференция напомнила мне, что все великие проекты начинаются с пары маленьких шагов, за которыми следуют многочисленные итерации и безжалостная самоотдача.

Научная конференция по открытым данным 2018 г.

Презентации, из которых я многому научился

Выводы

Вопросы по теме