3 главных урока, извлеченных во время питья из пожарного шланга науки о данных

Во время поиска работы у меня было одно жесткое требование: где бы я ни оказался, я хотел пить из «пожарного шланга науки о данных». Я хотел работать вместе с опытными специалистами по данным, обладающими разнообразными навыками и искренней страстью к решению проблем с данными. Я хотел уйти из офиса после первого рабочего дня, спрашивая себя: «Как же я могу не отставать от этих людей?» И это именно то, что я получил в Elder Research.

Я хотел бы поделиться тремя уроками, которые я усвоил как «новый» специалист по данным в Elder Research. Моя цель двояка:

Взглянуть изнутри на строгость подхода Elder Research к решению проблем.
Показать потенциальным сотрудникам, чего они могут ожидать от карьеры специалиста по данным.

Каждый из уроков связан с недавним взаимодействием, когда клиент хотел предсказать, пройдет ли конкретный продукт нормативный аудит. Наши данные включали небольшое количество продуктов с результатами испытаний за пятилетний период и гораздо большее количество продуктов без результатов испытаний.

Урок № 1: Исследование данных может создать или разрушить модель

Я не могу не подчеркнуть, насколько важным было исследование данных в этом проекте, и под исследованием данных я имею в виду больше, чем просто построение гистограмм и диаграмм рассеяния. Исследование данных — это нечетко определенный процесс обнаружения в ваших данных вещей, которые заставляют вас воскликнуть: «Хм…». Это может быть поиск группы наблюдений (в нашем случае продуктов), которые выглядят до переменная с большим количеством пропущенных значений или что-то еще, что выделяется.

Проанализировав данные, мы внезапно пришли к пониманию: более половины из 20 тысяч товаров были точными дубликатами! Изначально это не было очевидно, потому что все они имели уникальные идентификаторы, но когда мы удалили эти идентификаторы, остальная информация о продуктах была точно такой же. Это было важным открытием, потому что аналитическая модель будет переоценивать повторяющиеся данные при принятии решений.

В дополнение к распутыванию повторяющихся записей мы потратили много времени на понимание наших отсутствующих переменных. Были ли они пропущены случайно или преднамеренно? Означает ли «отсутствует» что-то иное, чем «Мы не знаем значение этой переменной?». В нашем случае это было так: каждый проверенный продукт мог иметь до пять тестов. К некоторым продуктам не применялись определенные тесты, поскольку они не содержали компонентов, необходимых для всех пяти тестов. В продуктах с менее чем пятью тестами отсутствовали значения тестов, которые к ним не применялись; это было не случайно. Это было ключевое открытие для построения нашей целевой переменной, которую мы пытаемся предсказать.

Урок № 2. Выбирайте цель с умом

Клиент предоставил нам бинарную целевую переменную, сбой, которая указывала на результат тестирования продукта. После выбора наших возможных входных предикторов отказа и сбора их в единую таблицу мы искали взаимосвязь между ними и целью. Несмотря на все наши усилия, мы не смогли найти никаких хороших взаимосвязей, поэтому мы повторно посетили целевую переменную, чтобы лучше понять, как она была определена.

Для каждого продукта отказ определялся относительно того, как производитель заявлял, что его продукт будет работать в каждом тесте. Если тестовое измерение было на заданный процент ниже заявленного измерения продукта, продукт считался неисправным. Другими словами, к продукту, прошедшему 4 из 5 тестов с небольшим запасом в 2002 г., относились так же, как к продукту, прошедшему 1 из 5 тестов с небольшим отрывом в 1992 г. должно было быть, но оно не учитывало изменения в тестах с течением времени (среднее тестовое измерение в 1992 г. может сильно отличаться от показателя 2002 г. из-за изменений в конструкции продукта или правилах). Возвращаясь к нашему обнаружению отсутствующих результатов тестирования, мы поняли, что продукты, подходящие для всех пяти тестов, имеют больше шансов провалиться, чем продукты, прошедшие всего три теста. Помня об этом, мы разработали целевую переменную, чтобы фиксировать степень отказа продукта (или насколько он был близок к прохождению) с поправкой на время между тестами и количество тестов.

Когда первоначальный подход не приносил желаемых результатов, мы продвигались вперед, чтобы решить корень проблемы, нечетко определенную целевую переменную, и возвращались к нашему клиенту, чтобы убедиться, что они поняли и согласились с нашим решением установить более детализированную цель. Переменная. Использование пересмотренного определения неудачи (цели) дало предсказуемую взаимосвязь, и мы перешли к следующему этапу процесса.

Урок № 3: «Передовые» алгоритмы не всегда побеждают

В Elder Research мы гордимся тем, что остаемся на переднем крае науки о данных. Когда новейшие методы демонстрируют впечатляющую производительность, мы читаем статьи, внедряем методы и тестируем их на разных наборах данных. В этом конкретном случае данные были использованы для метода, называемого полууправляемым обучением, который использует большие объемы неразмеченных данных для улучшения прогнозов на основе размеченных данных.

Полууправляемое обучение — это компромисс между двумя основными типами машинного обучения, контролируемым и неконтролируемым обучением:

Обучение с учителем. В этом сценарии модель (обучаемый) обнаруживает связи между переменными-предикторами и целью или меткой. Учащегося под наблюдением можно представить как студента, готовящегося к экзамену с предварительным тестом и ключом к ответу: вопросы в предварительном тесте — это наши прогнозы, а ответы в ключе к ответу — это наши метки. Когда приходит время сдавать экзамен, учащийся опирается на свои знания предварительного теста, чтобы ответить на новые, невиданные ранее вопросы.
Обучение без учителя. В этом сценарии у учащегося есть предварительный тест, но нет ключа для ответа, поэтому экзамен намного сложнее.
Обучение с частичным учителем. В этом сценарии у учащегося есть много предварительных тестов и ключ ответа только для одного из них. Этот учащийся может учиться как на помеченных (ответы), так и на немаркированных вопросах предварительного теста, чтобы подготовиться к экзамену. Это не так выгодно, как если бы все наблюдения были помечены, но гораздо полезнее, чем игнорировать немаркированные наблюдения. Как правило, как и в случае с привлечением наших клиентов, число последних намного превышает количество первых.

Наши полуконтролируемые модели стремились учиться как на проверенных (маркированных) продуктах, так и на непроверенных (немаркированных) продуктах. Мы решили эту проблему с помощью нескольких разнообразных инструментов, создали базовую модель с полууправляемыми методами обучения и бросили вызов этой модели с помощью подхода глубокого обучения. Несмотря на непревзойденную производительность модели-претендента на многих канонических наборах данных машинного обучения, это был полууправляемый метод обучения, который вышел на первое место.

Я не говорю, что ажиотаж вокруг глубокого обучения необоснован. Мы видели, как глубокое обучение работает очень хорошо для многих наших клиентов. На недавней конференции NVIDIA я увидел много примеров успешных приложений глубокого обучения. От прогнозирования риска смертности в центрах интенсивной терапии до выделения ресурсов для аварийного восстановления — глубокое обучение стремительно захватывает мир. Но, как часто говорит Джон Элдер, «у каждой собаки есть свой день»; в этой проблеме это был день полуприсмотренной собаки!

Первоначально опубликовано на www.elderresearch.com.

3 главных урока, извлеченных во время питья из пожарного шланга науки о данных

Урок № 1: Исследование данных может создать или разрушить модель

Урок № 2. Выбирайте цель с умом

Урок № 3: «Передовые» алгоритмы не всегда побеждают

Вопросы по теме