Тенденции в области науки о данных на 2019 год

Что произошло в 2018 году и что выглядит многообещающим на 2019 год?

Этот год можно считать расцветом искусственного интеллекта (ИИ). Просто посмотрите на количество стартапов с термином AI в их лозунгах; где сосредоточены приобретения у крупных компаний; и темы крупнейших технических конференций. ИИ повсюду, даже если он просто модное слово. Но что на самом деле такое ИИ? Это довольно сложный и неоднозначный вопрос.

Ясно одно: наука о данных решает проблемы. Данные есть повсюду, и способы их использования (наука) растут и все больше и больше влияют на общество. Давайте сосредоточимся на науке о данных, а другие пофилософствуем на лучшем определении ИИ.

В то время как другие модные словечки продолжают развиваться, как обстоят дела с наукой о данных?

Интерес совсем неплохой! Я продолжаю настаивать на том, что наука о данных - это не модное слово. Даже для людей, которые сейчас присоединяются к науке о данных - а их много, - вам просто нужно быстро найти работу в LinkedIn, и вы будете поражены количеством предложений. Давайте начнем с того, что произошло в 2018 году, а затем сосредоточимся на горячих темах на 2019 год.

Сегодня

В прошлом году я опубликовал статью о моих ожиданиях относительно тенденций в области науки о данных на 2018 год. Среди основных достижений, о которых я упомянул, были: автоматизация рабочих процессов, объяснимость, справедливость, коммерциализация науки о данных и улучшения в инструментах разработки / очистки функций.

Что касается автоматизации, работа специалистов по данным очень часто заключается в автоматизации их собственной работы. Компании открывают источники своих собственных конвейеров автоматизации в настоящее время. Другие просто продолжают продавать его, но с каждым днем конкуренция растет (например, Microsoft Azure, H2O, Data Robot, Google). К счастью, наука о данных - это сквозная дисциплина, и те же алгоритмы, которые используются в здравоохранении, можно использовать, с некоторыми изменениями, в сельском хозяйстве. Таким образом, если компания терпит неудачу в одной вертикали, ее разработки можно быстро адаптировать к другой сфере.

Эти инструменты становятся обычным товаром, и для их использования вам даже не нужно знать, как программировать. Некоторые из них родились из-за нехватки талантов в области науки о данных несколько лет назад и впоследствии превратились в прибыльные продукты. Это напоминает один из принципов книги Rework - устраняйте побочные продукты.

Объяснимость и справедливость претерпели большие изменения в 2018 году. Сейчас гораздо больше доступных ресурсов. Инструменты, которые были только альфа-версиями Python, достигли зрелости (например, SHAP). Кроме того, вы можете легко найти структурированные и поддерживаемые книги по этой теме, например книгу Кристофа Мольнара Интерпретируемое машинное обучение. Понимание очень сложных моделей идет в правильном направлении за счет уменьшения препятствий - отличный пример Google What-If Tool.

Разработка функций по-прежнему остается одним из главных секретов решений Data Science - взгляните на описание выигрышного решения для риска дефолта Home Credit в Kaggle. Хотя многие из лучших функций все еще создаются вручную, Feature Tools стали одной из основных библиотек разработки функций в этом году для ленивых (умных?) Специалистов по данным. Проблема этих инструментов заключается в том, что вам необходимо иметь стандарты данных для всего вашего бизнеса, т. Е. Если один из ваших клиентов предоставляет данные в одном формате, вы должны убедиться, что второй клиент следует той же процедуре - в противном случае у вас будет много нежелательной ручной работы.

Наконец, если бы мы поставили Оскары языкам программирования, Python, вероятно, получил бы некоторые из них. Сегодня это самый быстрорастущий основной язык программирования и самый востребованный язык второй год подряд, согласно Stack Overflow. Таким образом, он быстро становится наиболее часто используемым языком программирования.

Завтра

Так что же дальше? Что еще можно сделать?

В вышеупомянутых темах еще многое предстоит сделать. И они останутся в центре внимания специалистов по данным в 2019 году и в последующие годы. Основное внимание будет уделено развитию технологий при ответах на вопросы:

Как мы можем минимизировать время, затрачиваемое специалистами по обработке данных на очистку данных и разработку функций?
Как мы можем определить доверие в контексте машинного обучения?
Если мы говорим, что модель машины справедливая, каковы ее характеристики?

Но, помимо этих мета-вопросов, на которые сложно ответить, какие темы являются многообещающими?

Обучение с подкреплением за свою жизнь могло пройти много зим. Однако, похоже, приближается еще одна весна. Отличный пример - фантастическая игра в Dota 2. Еще многое предстоит сделать, и потребуется много вычислительной мощности ... Но, в любом случае, обучение с подкреплением - это наиболее похожий на человека способ обучения, который у нас есть в настоящее время, и очень интересно видеть его приложения.

Скорее всего, мы увидим, как эти экспериментальные концепции превращаются в реальные продукты. Если у вас есть время, взгляните на них и воспользуйтесь OpenAI gym для их развития.

Отчет 71 GDPR: Субъект данных должен иметь «право… получить объяснение принятого решения… и оспорить это решение».

Общие правила защиты данных (GDPR) действуют в ЕС с 25 мая 2018 года и напрямую влияют на науку о данных. Проблема в том, что компании все еще понимают пределы этого нового правила. Две из основных открытых тем:

Конфиденциальность данных. Компаниям, которые неправильно обращаются с персональными данными, теперь грозят огромные штрафы. Означает ли это, что доступ к данным для исследований станет более трудным? Увидим ли мы новые разработки в синтезе данных? Можем ли мы действительно анонимизировать данные?
Право на объяснение. Полностью автоматизированные решения должны быть объяснимыми. Что ж, это здорово… Но что на самом деле означает объяснимый? Увидим ли мы стандартизацию алгоритма интерпретируемости машинного обучения? На этот вопрос нет ответа от организаций ЕС - мы, вероятно, просто ждем самого большого штрафа, который когда-либо был исполнен.

Надежный ИИ состоит из двух компонентов: (1) он должен уважать основные права, применимое регулирование и основные принципы и ценности, обеспечивая этическую цель и (2) он должен быть технически надежным и надежным, поскольку даже при благих намерениях отсутствие технологическое мастерство может нанести непреднамеренный вред [EU AI Ethics]

Поскольку алгоритмы все больше влияют на общество, мы имеем право убедиться, что предубеждения смягчаются, и их использование идет на пользу целому, а не только избранным. К счастью, компании и учреждения работают над этим. Проект этики ЕС в области искусственного интеллекта и Принципы искусственного интеллекта Google - прекрасные примеры. До этики еще далеко, но сейчас эта тема постоянно обсуждается, и это хорошо.

По мере того, как алгоритмы становятся более сложными и становится доступным больше данных (каждый гаджет теперь генерирует данные, верно?), Все меньше людей будет использовать свои ноутбуки только для анализа данных. Мы будем использовать облачные решения даже для самых простых проектов (например, Google Colab). Времени мало, графических процессоров - нет… Ноутбуки развиваются недостаточно быстро, чтобы идти в ногу с требуемой вычислительной мощностью.

А теперь представьте, что вы видите компанию с открытой вакансией на должность «Инженер» - именно это. Это здорово ... Но в настоящее время существует около 100 типов инженеров. Это инженер-механик? Аэрокосмическая промышленность? Программное обеспечение? «Инженер» слишком универсален.

Год или два назад компании просто публиковали вакансию под названием Data Scientist. Что ж, он начинает казаться неполным. А если вы только начинаете в этой области, стать специалистом по обработке данных общего может быть слишком сложно. Разобравшись в этой области, вам лучше сосредоточиться на конкретной теме. Возьмем, к примеру, Netflix, у которого девять ролей данных:

Существует множество областей специализации, которых раньше не существовало, и для специалистов по обработке данных становится все более важным сосредоточить внимание на одной из них, чтобы заявить о себе. Пришло время найти свое, если вы еще этого не сделали. С моей точки зрения, навыки Data Engineering - самые интересные в ближайшие годы. Если у вас их нет в команде, вы, вероятно, просто играете в науку о данных в блокнотах Jupyter. И компании это понимают.

2019 год снова будет удивительным. Еще многое предстоит сделать, и дело не только в техническом и ботаническом! Ожидаются реальные проблемы, требующие решения.

В заключение помните, что время - наш самый большой актив. Каждая секунда, которую вы тратите на бесполезное занятие, - это секунда, которую вы потеряли, не делая чего-то великого. Выберите свою тему и не считайте свою работу обычным делом.

Хьюго Лопес

Тенденции в области науки о данных на 2019 год

Что произошло в 2018 году и что выглядит многообещающим на 2019 год?

Сегодня

Завтра

Вопросы по теме