Изучение науки о данных на общих наборах данных бесполезно

Хорошо, это определенно не бесполезно. Но это гораздо более бесполезно, чем должно быть. В этой статье будут описаны некоторые потенциальные роли, которые данные играют в изучении науки о данных, а также аргументы против использования универсальных (и статических, если уж на то пошло) наборов данных. Слишком часто мы видим, как темы машинного обучения преподаются на доступных общих наборах данных, таких как mtcars или iris. Позвольте мне прояснить, мы используем эти наборы данных, потому что они великолепно очищены, подготовлены и надежны для обучения различным концепциям науки о данных. Не у всех есть огромные объемы данных… или они есть? Возможно, настало время автоматически курировать собственные груды данных учащихся в Интернете, чтобы помочь им отвечать на вопросы о себе и одновременно изучать науку о данных. Поскольку мы продолжаем развивать образование в области науки о данных, я предлагаю перейти к использованию изменяемых и личных наборов данных для обучения. Моя цель состоит в том, чтобы превратить образование в области науки о данных в деятельность, направленную не столько на формирование навыков, сколько на самоисследование и открытие. В то время как одна из идей вращается вокруг использования уже доступных релевантных данных (ваших собственных!), другая более глубокая идея указывает на роль, которую данные играют даже в процессе обучения. В этой статье мы немного расскажем о том, почему важны данные.

Мы не изучаем науку о данных без причины.

В последнее время я немного спорил с тем, почему мы должны изучать науку о данных. Иногда кажется сенсационной паникой мчаться в тюрьму капитализма. «Если бы у вас были навыки работы с данными!» «Есть ли на этом плане доктор машинного обучения?!» Это все, безусловно, для другого поста в блоге, но сейчас я продолжу проповедовать, что изучение науки о данных — это форма самопознания, которая может приносят большую радость, если их правильно воспитывать. Итак, давайте предположим, что вы по какой-то причине учитесь на специалиста по данным. Когда вы действительно работаете с данными:

Обычно у вас есть реальная проблема, которую нужно решить, возможно, даже с конкретным результатом.
Вы соотносите эти данные с имеющимися у вас знаниями в предметной области; будь то спорт, медицина, прибыль, игры и т. д.
У вас есть прогнозы и интуиция относительно данных, с которыми вы работаете. Иногда это позволяет вам указать на допущенные вами ошибки (частота сердечных сокращений 9000? это не может быть правильным!). В других случаях вы затуманены своей интуицией и пытаетесь найти значение, которого просто нет.

Все эти аспекты работы с данными тесно связаны с имеющимися у вас данными. Определенные проблемы требуют определенных тестов, которые требуют определенных конфигураций данных. Данные привязаны к тому, что вы знаете о своем домене, и часто используются для поддержки поиска истины в этом домене. И ваша интуиция имеет значение! Каждый раз, когда мы превращаем опыт в данные, мы принимаем решения. Я использовал следующий пример, чтобы проиллюстрировать это положение: при измерении средний рост в Америке, включаем ли мы младенцев в этот средний показатель? То, как мы определяем данные, с которыми мы работаем, имеет значение, и наличие некоторой интуиции о том, какие данные использовать, имеет значение. Не знаю, как у вас, а у меня абсолютно нулевая интуиция о ботанике и длине чашелистиков.

Алгоритмы — это процесс, и данные меняют этот процесс.

Частью понимания алгоритмов машинного обучения является понимание процессов, управляемых данными. Это означает, что ваш процесс тесно взаимодействует с данными, которые вводятся в систему. Я не пытаюсь сказать, что алгоритм принципиально меняет свои шаги в зависимости от того, какие данные у него есть, но я говорю, что процесс будет выглядеть по-разному для каждого пространства данных (пространства, в котором движется алгоритм).
Наблюдение за тем, что происходит с вашими моделями с очень небольшими или очень большими объемами данных, поможет вам понять, как на самом деле работает алгоритм. Подумайте о следующем примере: вы узнали, что собаку зовут Спарки, но случайно предположили, что на самом деле ее зовут Барки (ошибка, но умная ошибка). Однажды вы слышите, как кто-то называет собаку «Спарки», и, возможно, предполагаете, что они совершили ошибку, потому что на самом деле собаку зовут Барки. Теперь представьте, что вы слышите, как все называют собаку «Спарки» более 1000 раз. Возможно, вам пора признать свою ошибку! Это пример того, как количество данных может изменить результат и, возможно, даже процесс. Это справедливо и для алгоритмов. Возможность играть с количеством данных, которые мы видим, важна для изучения того, как работают алгоритмы.
Как мы рассматриваем пограничные случаи, если в наших данных их нет? Имеющиеся у нас данные позволяют нам рассуждать об определенных частях задействованных алгоритмов. Изучение глобального минимума может быть не столь информативным, если ваши данные не имеют локального минимума, о котором нужно беспокоиться. Имеющиеся у нас данные буквально диктуют случаи, которые мы можем исследовать. Я не обязательно говорю, что мы можем автоматически выбирать идеальные наборы данных, содержащие идеальные пограничные случаи, и может случиться так, что текущие общие наборы данных делают включают пограничные случаи. Но я говорю, что это важная роль, которую играют данные, которую мы должны признать.

Данные и модели, которые вы выбираете, находятся в определенных отношениях.

Данные не только изменяют алгоритмический процесс, но и диктуют, какие алгоритмы следует использовать. Это не означает, что вы должны использовать алгоритм только потому, что данные позволяют это сделать. Но важно отметить, что роль данных заключается в ограничении алгоритмов, которые вы можете реально использовать. Общие наборы данных, используемые для обучения определенным концепциям, безусловно, содержат подходящие данные для решения поставленной задачи, но что, если ваш вопрос изменится (что часто происходит при работе с реальными данными)? Можем ли мы, чтобы наш набор данных автоматически адаптировался к вопросам, которые мы задаем? Я полагаю, что помимо знания предметной области о самих данных нам нужно больше автоматически адаптирующихся наборов данных, которые помогут нам изучить концепции, которые помогут нам ответить на вопросы. Это полный рот, я знаю. Данные и модели, которые мы выбираем, находятся в тесной взаимосвязи, а отношения не являются универсальными. Данные, которые мы используем для изучения науки о данных, должны быть такими же адаптивными, сложными, беспорядочными и детализированными, как отношения между данными и моделями, которые мы выбираем.

Изучение науки о данных на общих наборах данных бесполезно