Создайте идеальный набор данных, чтобы протестировать свою модель за считанные секунды

Новичку может быть немного сложно начать работать с уже существующим набором данных.

Или, может быть, вы хотите быстро протестировать модель или попрактиковаться в построении модели на основе последнего изученного вами алгоритма.

Но вы не хотите тратить свое время на очистку данных и прочее.

Эта статья поможет вам создать свой собственный набор данных в мгновение ока, и вы сможете начать практиковаться, как только захотите.

В этой статье мы создадим собственную пользовательскую функцию, которая генерирует случайные наборы данных в соответствии с нашими требованиями. Мы создадим эту функцию с помощью библиотеки Sklearn.

Мы будем использовать функции, определенные для создания случайных наборов данных, как определено в модуле Наборы данных Sklearn.

Итак, начнем.

Создание пользовательского набора данных

Мы начнем с импорта метода make_regression() из модуля Sklearn для создания набора данных для регрессии.

from sklearn.datasets import make_regression

Затем мы создадим объект регрессии, передав необходимые параметры.

На данный момент мы передадим аргументы для создания набора данных со 100 образцами, 4 функциями и 1 целью.

reg = make_regression(n_samples=100, n_features=4, n_targets=1)
type(reg)
tuple

Теперь наш набор данных готов, но он представлен в виде кортежа массивов.

Нам нужно преобразовать его во фрейм данных для удобства обработки.

Итак, сначала мы определим наши столбцы.

columns = [f"F{i}" for i in range(1, 7)] #defining our column names

Теперь давайте создадим наш фрейм данных.

# features
features = pd.DataFrame(reg[0], columns=columns)

# target
target = pd.DataFrame(reg[1], columns=['Target'])

# checking dataframe shape
print("Dataset shape: ", features.shape, target.shape)
Dataset shape:  (10000, 6) (10000, 1)

Теперь давайте объединим функции и целевой фрейм данных, чтобы получить наш окончательный фрейм данных.

# concatenating features and target.
df_reg = pd.concat([features, target], axis=1)
df_reg.head() # looking at first 5 observations

Вот и все. Наш пользовательский фрейм данных готов, и теперь вы можете очень быстро начать практиковаться со своими моделями машинного обучения.

Но подождите, а как насчет наборов данных для других задач?

Не беспокойся. Я сделал для вас специальную функцию, которую вы можете копировать и вставлять в свой терминал/окно/блокнот, куда хотите.

Пользовательская функция для создания пользовательского набора данных

Вы можете использовать эту функцию для удобного создания пользовательских наборов данных.

Вы должны указать необходимое число для задачи, чтобы сгенерировать соответствующий набор данных.

Например, чтобы создать набор данных для регрессии, введите

makedf(1).head()
Dataset shape:  (10000, 6) (10000, 1)

Для набора данных классификации

makedf(3).head()
Dataset shape:  (10000, 6) (10000, 1)

Точно так же вы можете передать аргумент и получить требуемый набор данных.

Надеюсь, вам понравился пост.

Подпишитесь на меня, чтобы получать больше полезных материалов по науке о данных и машинному обучению.

Вы можете посетить мой профиль на GitHub по адресу: https://github.com/Retinpkumar, чтобы получить доступ к файлам кода, связанным с моими сообщениями в блоге.

Спасибо и хорошего дня.