Как разделить немаркированные данные на набор для обучения и тестирования с помощью train_test_split?

Я новичок в анализе данных и пытаюсь построить свою первую модель. Я не понимаю, как правильно использовать функцию разделения. В большинстве документов рекомендуется следующий подход (где X = данные и Y = метка):

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)

У меня есть набор данных без метки (X = data), и я хочу построить на его основе модель для прогнозирования аномалий. Это означает, что я могу разделить свой набор данных только на 2 (части: X_train и X_test). Но я не уверен, правильно ли это для моего набора данных, и хотел бы знать, как мне продолжить, чтобы получить y. Заранее спасибо за вашу поддержку


person Fleur Fx    schedule 29.09.2020    source источник
comment
Вы занимаетесь обучением без учителя? Я считаю, что вы, возможно, захотите изучить кластеризацию или другую форму обучения без учителя ...   -  person user1538798    schedule 30.09.2020
comment
поделиться набором данных, столбцами и строками .. и т. д.   -  person Mohamed Benkedadra    schedule 30.09.2020
comment
Я учусь без учителя. Внешний вид набора данных. Спасибо POSDAT | AEDAT | DOCNR | WAERS | KTOSL | BELNR | HKONT | DMBTR | WRBTR 01.01.1994 | 09.01.1994 | A1 | C3 | C31 | C9 | C92 | 280979.60 | 0.00 02.01.1994 | NaN | A2 | C1 | C76 | A1 | B2 | 129856.53 | 243343.00 03.01.1994 | NaN | A3 | C1 | C20 | A1 | B3 | 957463.97 | 3183838.41   -  person Fleur Fx    schedule 30.09.2020


Ответы (1)


Вы можете увидеть пример по ссылке . Функция может работать и с одной переменной.

train_test_split (y, shuffle = Ложь)

В вашем случае ответ будет

X_train, X_test = train_test_split(X, test_size=0.2, random_state=1)
person Yuvraj Takey    schedule 18.12.2020