Публикации по теме 'categorical-data'
Исследовательский анализ данных, категориальные данные - Часть II
Исследовательский анализ данных, категориальные данные - Часть II
«Придумывать функции сложно, требует много времени и экспертных знаний. «Прикладное машинное обучение» - это в основном разработка функций ».
- Проф. Эндрю Нг.
Специалисты по обработке данных тратят около 75% своего времени на анализ данных и инженерных функций, что действительно является сложным и трудоемким процессом. Они требуют знания предметной области наряду с математическими вычислениями...
Дополнение категориальных наборов данных синтетическими данными для машинного обучения.
Модели гауссовской смеси для проверки этикеток в расширенных синтетических категориальных данных.
Рассмотрим гипотетический, но распространенный сценарий. Вам необходимо создать классификатор, чтобы отнести выборку к группе населения. У вас есть значительный набор обучающих данных из миллиона выборок. Он был очищен, подготовлен и промаркирован. Несколько непрерывных переменных уже нормализованы, а категориальные переменные, представляющие большинство функций, развернуты с использованием..
Вопросы по теме 'categorical-data'
Почему упорядоченный вектор не всегда упорядочен согласно is.ordered в R?
Я предполагаю, что это связано с уровнями и факторами, но я не уверен, что именно происходит:
test <- c(1,4,2,3,7,9,8)
testOrdered <- test[order(test)]
is.ordered(testOrdered)
is.ordered(rev(testOrdered))
Оба раза функция возвращает...
2326 просмотров
schedule
05.11.2021
Прогнозирование с использованием rpart по новым факторным (категориальным) переменным
Я практикую машинное обучение с использованием R. Я использую метод rpart для обучения. Данные представляют собой набор данных для взрослых из UCI. Ссылка следующим образом
http://archive.ics.uci.edu/ml/datasets/Adult
#Get the data...
3065 просмотров
schedule
12.09.2021
Удаление рекурсивных функций на категориальных данных в sklearn?
У меня есть набор данных, содержащий 8 параметров (4 непрерывных 4 категориальных), и я пытаюсь исключить функции в соответствии с классом RFEC в Scikit.
Это формула, которую я использую:
svc = SVC(kernel="linear")
rfecv = RFECV(estimator=svc,...
2001 просмотров
schedule
19.11.2021
Группировка Crossfilter.js по нескольким категориальным осям
У меня следующая проблема: мой набор данных выглядит следующим образом:
[{
"id": 1542284,
"date": "2013-04-22",
"kilometer": 111179.364089776,
"country": "RU",
"ps": 100,
"model": "110A"
},
{
"id": 1542285,
"date": "2013-08-30",
"kilometer":...
410 просмотров
schedule
26.11.2021
Обработка невидимой категориальной строки Spark CountVectorizer
Я видел, что StringIndexer имеет проблемы с невидимыми ярлыками (см. здесь ).
Мой вопрос:
Есть ли у CountVectorizer такое же ограничение? Как он обрабатывает строку, которой нет в словаре?
Кроме того, влияют ли входные данные на...
919 просмотров
schedule
24.09.2021
Выявить особенности кластера k-мод
Я выполняю кластерный анализ категориальных данных, поэтому использую подход k-mode.
Мои данные сформированы как опрос предпочтений: как вам нравятся волосы и глаза?
Респондент может выбрать ответы из фиксированного (множественного...
10509 просмотров
schedule
02.11.2021
Группировка числовых значений по диапазонам с вырезом
Я сделал выборку растровых данных ASPECT в диапазоне от 0 до 360, и теперь я хочу сгруппировать эти данные по направлениям (север, юг, восток, восток и т. Д.).
Я нашел функцию вырезания и хотел попробовать ее, но, похоже, что-то не работает. Для...
658 просмотров
schedule
14.11.2021
Категориальные переменные с большим количеством категорий в XGBoost / CatBoost
У меня вопрос по случайным лесам. Представьте, что у меня есть данные о пользователях, взаимодействующих с предметами. Количество элементов велико, около 10 000. Мой вывод случайного леса должен состоять из элементов, с которыми пользователь,...
3460 просмотров
schedule
30.10.2021
одноразовое кодирование более 1 значения в каждой характеристике категориальных данных
Я новичок в scikitlearn, и сейчас я борюсь с этапом предварительной обработки.
У меня есть следующие категориальные особенности (я проанализировал файл JSON и поместил его в словарь), так что:
dct['alcohol'] = ["Binge drinking",
"Heavy...
819 просмотров
schedule
24.10.2021
Как преобразовать непрерывные данные в категориальные в Python?
Все,
Мой набор данных выглядит следующим образом, и я хотел бы добавить один столбец, который может преобразовать мой последний столбец, то есть Day_of_The_week в Mon, Tue, Wed. Примечание: Day_of_the_week включает 5 дней: пн, вт, ср, чт, пт. Я...
483 просмотров
schedule
02.12.2021
Преобразование категориальных данных в числовые векторы
Я пытаюсь преобразовать вектор - «Многолетний опыт» с несколькими тысячами наблюдений в числовое значение. Потенциальные ответы для «лет опыта» кодируются как «от 0 до 1», «от 1 до 2», «от 2 до 3» и т. Д. Вплоть до «от 39 до 40».
Я думал, что...
99 просмотров
schedule
11.09.2021
Подсчитать количество случаев в двух из нескольких категорий в R?
У меня есть набор данных, который описывает выборку людей, а также количество и типы болезней, которые у них есть. Здесь 1 означает, что у человека есть болезнь, а 0 означает, что у человека нет болезни. NA обозначает пропущенные значения. Выглядит...
43 просмотров
schedule
29.10.2021
Построение столбчатой и сгруппированной гистограммы в r
В настоящее время я пытаюсь построить некоторые данные в R, и мне это не удается. Мои данные выглядят так:
Мои данные хранятся во фрейме данных под названием «Голова»: Моя ответная переменная - это фактор (называемый «цвет») только с двумя...
65 просмотров
schedule
20.09.2021
sklearn сериализовать кодировщик этикеток на диск для нескольких категориальных столбцов
У меня есть модель с несколькими категориальными функциями, которые необходимо преобразовать в числовой формат. Я использую комбинацию LabelEncoder и OneHotEncoder , чтобы добиться этого. В процессе производства мне нужно применить ту же...
78 просмотров
schedule
06.11.2021
Автоэнкодер для кодирования функций / категорий данных
У меня вопрос по поводу использования автоэнкодеров (в PyTorch). У меня есть табличный набор данных с категориальной функцией, который имеет 10 разных категорий. Названия у этих категорий очень разные - некоторые имена состоят из одного слова,...
391 просмотров
schedule
25.10.2021
Как кодировать и вменять категориальные данные?
У меня есть столбец с категориальными данными и некоторыми значениями нан. Я хочу заполнить значения nan, а не отбрасывать их. Я действительно не знаю, что делать сначала - кодировать или вменять? Я пытаюсь сначала кодировать с помощью...
88 просмотров
schedule
15.09.2021
заменить отсутствующие значения в категориальных данных
Предположим, у меня есть столбец с категориальными данными "красный" "зеленый" "синий" и пустые ячейки.
red
green
red
blue
NaN
Я уверен, что NaN принадлежит красно-зеленому синему, следует ли мне заменить NaN на среднее значение цветов или...
3735 просмотров
schedule
18.02.2022
Тепловая карта количества категориальных переменных
У меня есть фрейм данных элементов, и у каждого есть несколько столбцов классификатора, которые являются категориальными переменными.
ID test1 test2 test3
1 A B A
2 B A C
3 C C C
4...
2881 просмотров
schedule
21.02.2022
Если я LabelEncode категориальные данные, нужно ли мне все равно использовать category_feature при создании набора данных LightGBM?
Я пытаюсь создать простую модель в lightgbm, используя две функции: одна категориальная, а другая - дистанционная. Я следую руководству ( https://sefiks.com/2018/10/13/a-gentle-introduction-to-lightgbm-for-applied-machine-learning/ ), в котором...
2221 просмотров
schedule
21.02.2022
подсчет частоты с категориальными переменными
У меня две категориальные переменные.
Переменная A имеет около 15 уровней, а переменная B имеет фиктивный код (0,1).
Я ищу таблицу с частотой единиц в переменной B для каждого из 15 уровней переменной A.
31 просмотров
schedule
19.02.2022