Классификация с использованием случайного леса

импортировать numpy как np
из sklearn.feature_extraction.text импортировать CountVectorizer
из sklearn.ensemble импортировать RandomForestClassifier

Шаг 1:

сначала я включил все пакеты. набор данных представляет собой корпус данных.

набор данных = ['Пациент с глаукомой','Высокая температура Денгу','Проблемы с глазами, глаукома','пациент с Денгу']

Шаг 2:
Метка 1 = глюкома, метка 2 = денгу

Метка = np.массив ([1,2,1,2])

Шаг 3:
Преобразование слова в вектор. Поскольку нам нужны числа для обработки данных в нашем алгоритме, поэтому мы создаем набор слов с помощью CounterVector.

newvector = CountVectorizer(min_df=1)
temp = newvector.fit_transform(dataset).toarray()

Шаг 4:
Метод классификации: классификатор случайного леса, аналогичный дереву решений.

Ссылка: http://dataaspirant.com/2017/05/22/random-forest-algorithm-machine-learing/

mymodel = RandomForestClassifier()
mymodel.fit(temp, Label)

Шаг 5

Протестируйте мою модель. Она работает нормально или нет?
mymodel.predict(newvector.transform([‘Глаукома — это болезнь’]).toarray())

Вывод: