это мое задание
Соберите не менее 400 полных отзывов и оценок от Yelp для ресторана, отзывы о котором неоднозначны. Перекодируйте оценки. 1-3 = отрицательный, 4-5 = положительный. Очистить и предварительно обработать данные (удалить знаки препинания, удалить стоп-слова, преобразовать все слова в нижний регистр). Разделите данные 70/30 и разработайте наивную байесовскую модель, дерево решений и модели логистической регрессии (10 баллов). Запишите отзыв, точность, F1, точность и AUC для каждой модели (5 баллов). Выберите лучший показатель для сравнения модели и объясните ваше обоснование. Определить лучшую модель
Я вставил этот код:
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import recall_score, precision_score, f1_score, accuracy_score
from sklearn.metrics import roc_curve
from sklearn.metrics import auc
nb = GaussianNB()
nb.fit(X_train_feats, y_train)
y_pred_nb = nb.predict(X_test_feats)
y_pred_nb_prob = nb.predict_proba(X_test_feats)[:, 1]
fpr_nb, tpr_nb, _ = roc_curve(y_test, y_pred_nb_prob)
roc_auc_nb = auc(fpr_nb, tpr_nb)
Я получаю сообщение об ошибке: индекс 1 выходит за пределы оси 1 с размером 1.
Как это исправить?