Все, что вам нужно знать о фильтрации данных в Julia

Когда дело доходит до науки о данных, проверки гипотез, машинного обучения и даже аналитики, наиболее важным компонентом для получения результатов является наличие качественных данных. Существует множество различных требований к данным, которые часто необходимо предъявлять к этим данным. Одним из методов, который невероятно распространен и часто используется в мире данных, является фильтрация данных. Фильтрация данных может быть либо процессом удаления компонентов данных, которые не принадлежат, либо процессом захвата выборки, которая соответствует определенному параметру или количеству параметров.

Можно сказать, что примером удаления данных, когда они не относятся к фильтрации, является удаление пропущенных значений из наших данных. Это важный шаг в процессе Data Science, который часто выполняется с помощью методов фильтрации. Примером получения выборки, которая соответствует некоторым заданным параметрам, может быть попытка проверить статистическую значимость между высоким ростом и ударом головой. Мы бы отфильтровали все данные, где люди невысокие, чтобы у нас были данные исключительно высоких людей для тестирования.

Существует множество применений этой техники. Фильтрация также может быть необходима для выполнения некоторых общих задач Data Science, поэтому об этом, безусловно, следует знать. К счастью, фильтрация в Julia относительно проста. Если вы хотите попробовать код из этой статьи, вот ссылка на этот обзор в формате блокнота:



Чтобы действительно понять фильтрацию в Джулии, нам нужно знать несколько разных вещей. Анонимные функции часто предоставляются в качестве аргументов, хотя возможна любая форма функции в качестве аргумента, включая синтаксис do. В некоторых случаях мы также можем использовать тип Vector, называемый BitArray.

битовый массив

BitArray — это Vector, который содержит только значения типа Bool. В Юлии Array — это просто псевдоним для Vector. Вообще в…