Я ответил на ваши вопросы ниже, но, судя по вашим вопросам и комментариям, вы все еще изучаете логистические регрессии. Я могу порекомендовать расширенный анализ данных (http://www.stat.cmu.edu/~cshalizi/ADAfaEPoV/), в котором есть отличная глава о логистической регрессии, а также учебники «Элементы статистического обучения» или «Введение в статистическое обучение» для углубления в тему.
Я хочу знать, что означает массив coef?
Массив коэффициентов представляет собой список значений коэффициентов. Значения упорядочены по порядку столбцов в вашем наборе данных X_train. то есть -1,07091645 — значение коэффициента для первого столбца в X_train, -0,07848958 — значение коэффициента для второго столбца и т. д.
Итак, уравнение из вашего комментария станет:
-1.07091645*f1 + -0.07848958*f2 + 0.66913624*f3 + 0.43500273*f4
можно ли использовать эти функции coef * для ранжирования?
Я предполагаю, что вы пытаетесь оценить важность функций, поправьте меня, если я неправильно понял ваш вопрос, и я соответствующим образом отредактирую сообщение.
Во-первых, важно убедиться, что используемые вами переменные сопоставимы. Например, предположим, что первые две переменные в вашем наборе данных — это возраст (в годах) и доход (в долларах).
Это означает, что увеличение возраста на один год уменьшит переменную результата на -1,07091645, а увеличение дохода на один доллар уменьшит результат на -0,07848958. Теперь эффект увеличения на один год значительно выше, чем увеличение на один доллар, но увеличение на единицу возраста (один год) нельзя легко сравнить с увеличением на единицу дохода (один доллар).
Значит, в данном случае возраст важнее дохода? Сложно сказать.
Один из распространенных способов обойти это — масштабировать каждую переменную до одного и того же диапазона. Таким образом, по крайней мере, вы сравниваете похожие пошаговые изменения. Однако это может затруднить интерпретацию значений коэффициентов, поскольку вы не уверены, чему соответствует изменение масштабируемой переменной на одну единицу.
Означает ли это, что последние два признака наиболее важны для классификации результатов?
Нет. Как указывает @Vivek Kumar в своем комментарии, вы должны смотреть на абсолютное значение. Так что в этом случае, если вы чувствуете, что переменные сопоставимы, то в порядке важности это 1, 3, 4, 2.
Логика заключается в том, что даже если первая переменная имеет отрицательный коэффициент, эффект от изменения этой переменной больше, в то время как сохранение всех остальных переменных постоянными больше, чем эффект от изменения одной из переменных 2, 3 или 4.
person
amanbirs
schedule
16.11.2017
some value
Позже мы можем ранжировать, используя это значение - person Naufal Khalid   schedule 15.11.2017classifier.predict()
- person Vivek Kumar   schedule 15.11.2017