Классификация с использованием случайного леса
импортировать numpy как np
из sklearn.feature_extraction.text импортировать CountVectorizer
из sklearn.ensemble импортировать RandomForestClassifier
Шаг 1:
сначала я включил все пакеты. набор данных представляет собой корпус данных.
набор данных = ['Пациент с глаукомой','Высокая температура Денгу','Проблемы с глазами, глаукома','пациент с Денгу']
Шаг 2:
Метка 1 = глюкома, метка 2 = денгу
Метка = np.массив ([1,2,1,2])
Шаг 3:
Преобразование слова в вектор. Поскольку нам нужны числа для обработки данных в нашем алгоритме, поэтому мы создаем набор слов с помощью CounterVector.
newvector = CountVectorizer(min_df=1)
temp = newvector.fit_transform(dataset).toarray()
Шаг 4:
Метод классификации: классификатор случайного леса, аналогичный дереву решений.
Ссылка: http://dataaspirant.com/2017/05/22/random-forest-algorithm-machine-learing/
mymodel = RandomForestClassifier()
mymodel.fit(temp, Label)
Шаг 5
Протестируйте мою модель. Она работает нормально или нет?
mymodel.predict(newvector.transform([‘Глаукома — это болезнь’]).toarray())
Вывод: