Публикации по теме 'categorical-data'


Исследовательский анализ данных, категориальные данные - Часть II
Исследовательский анализ данных, категориальные данные - Часть II «Придумывать функции сложно, требует много времени и экспертных знаний. «Прикладное машинное обучение» - это в основном разработка функций ». - Проф. Эндрю Нг. Специалисты по обработке данных тратят около 75% своего времени на анализ данных и инженерных функций, что действительно является сложным и трудоемким процессом. Они требуют знания предметной области наряду с математическими вычислениями...

Дополнение категориальных наборов данных синтетическими данными для машинного обучения.
Модели гауссовской смеси для проверки этикеток в расширенных синтетических категориальных данных. Рассмотрим гипотетический, но распространенный сценарий. Вам необходимо создать классификатор, чтобы отнести выборку к группе населения. У вас есть значительный набор обучающих данных из миллиона выборок. Он был очищен, подготовлен и промаркирован. Несколько непрерывных переменных уже нормализованы, а категориальные переменные, представляющие большинство функций, развернуты с использованием..

Вопросы по теме 'categorical-data'

Почему упорядоченный вектор не всегда упорядочен согласно is.ordered в R?
Я предполагаю, что это связано с уровнями и факторами, но я не уверен, что именно происходит: test <- c(1,4,2,3,7,9,8) testOrdered <- test[order(test)] is.ordered(testOrdered) is.ordered(rev(testOrdered)) Оба раза функция возвращает...
2326 просмотров
schedule 05.11.2021

Прогнозирование с использованием rpart по новым факторным (категориальным) переменным
Я практикую машинное обучение с использованием R. Я использую метод rpart для обучения. Данные представляют собой набор данных для взрослых из UCI. Ссылка следующим образом http://archive.ics.uci.edu/ml/datasets/Adult #Get the data...
3065 просмотров

Удаление рекурсивных функций на категориальных данных в sklearn?
У меня есть набор данных, содержащий 8 параметров (4 непрерывных 4 категориальных), и я пытаюсь исключить функции в соответствии с классом RFEC в Scikit. Это формула, которую я использую: svc = SVC(kernel="linear") rfecv = RFECV(estimator=svc,...
2001 просмотров
schedule 19.11.2021

Группировка Crossfilter.js по нескольким категориальным осям
У меня следующая проблема: мой набор данных выглядит следующим образом: [{ "id": 1542284, "date": "2013-04-22", "kilometer": 111179.364089776, "country": "RU", "ps": 100, "model": "110A" }, { "id": 1542285, "date": "2013-08-30", "kilometer":...
410 просмотров

Обработка невидимой категориальной строки Spark CountVectorizer
Я видел, что StringIndexer имеет проблемы с невидимыми ярлыками (см. здесь ). Мой вопрос: Есть ли у CountVectorizer такое же ограничение? Как он обрабатывает строку, которой нет в словаре? Кроме того, влияют ли входные данные на...
919 просмотров
schedule 24.09.2021

Выявить особенности кластера k-мод
Я выполняю кластерный анализ категориальных данных, поэтому использую подход k-mode. Мои данные сформированы как опрос предпочтений: как вам нравятся волосы и глаза? Респондент может выбрать ответы из фиксированного (множественного...
10509 просмотров
schedule 02.11.2021

Группировка числовых значений по диапазонам с вырезом
Я сделал выборку растровых данных ASPECT в диапазоне от 0 до 360, и теперь я хочу сгруппировать эти данные по направлениям (север, юг, восток, восток и т. Д.). Я нашел функцию вырезания и хотел попробовать ее, но, похоже, что-то не работает. Для...
658 просмотров
schedule 14.11.2021

Категориальные переменные с большим количеством категорий в XGBoost / CatBoost
У меня вопрос по случайным лесам. Представьте, что у меня есть данные о пользователях, взаимодействующих с предметами. Количество элементов велико, около 10 000. Мой вывод случайного леса должен состоять из элементов, с которыми пользователь,...
3460 просмотров

одноразовое кодирование более 1 значения в каждой характеристике категориальных данных
Я новичок в scikitlearn, и сейчас я борюсь с этапом предварительной обработки. У меня есть следующие категориальные особенности (я проанализировал файл JSON и поместил его в словарь), так что: dct['alcohol'] = ["Binge drinking", "Heavy...
819 просмотров

Как преобразовать непрерывные данные в категориальные в Python?
Все, Мой набор данных выглядит следующим образом, и я хотел бы добавить один столбец, который может преобразовать мой последний столбец, то есть Day_of_The_week в Mon, Tue, Wed. Примечание: Day_of_the_week включает 5 дней: пн, вт, ср, чт, пт. Я...
483 просмотров

Преобразование категориальных данных в числовые векторы
Я пытаюсь преобразовать вектор - «Многолетний опыт» с несколькими тысячами наблюдений в числовое значение. Потенциальные ответы для «лет опыта» кодируются как «от 0 до 1», «от 1 до 2», «от 2 до 3» и т. Д. Вплоть до «от 39 до 40». Я думал, что...
99 просмотров
schedule 11.09.2021

Подсчитать количество случаев в двух из нескольких категорий в R?
У меня есть набор данных, который описывает выборку людей, а также количество и типы болезней, которые у них есть. Здесь 1 означает, что у человека есть болезнь, а 0 означает, что у человека нет болезни. NA обозначает пропущенные значения. Выглядит...
43 просмотров
schedule 29.10.2021

Построение столбчатой ​​и сгруппированной гистограммы в r
В настоящее время я пытаюсь построить некоторые данные в R, и мне это не удается. Мои данные выглядят так: Мои данные хранятся во фрейме данных под названием «Голова»: Моя ответная переменная - это фактор (называемый «цвет») только с двумя...
65 просмотров
schedule 20.09.2021

sklearn сериализовать кодировщик этикеток на диск для нескольких категориальных столбцов
У меня есть модель с несколькими категориальными функциями, которые необходимо преобразовать в числовой формат. Я использую комбинацию LabelEncoder и OneHotEncoder , чтобы добиться этого. В процессе производства мне нужно применить ту же...
78 просмотров

Автоэнкодер для кодирования функций / категорий данных
У меня вопрос по поводу использования автоэнкодеров (в PyTorch). У меня есть табличный набор данных с категориальной функцией, который имеет 10 разных категорий. Названия у этих категорий очень разные - некоторые имена состоят из одного слова,...
391 просмотров

Как кодировать и вменять категориальные данные?
У меня есть столбец с категориальными данными и некоторыми значениями нан. Я хочу заполнить значения nan, а не отбрасывать их. Я действительно не знаю, что делать сначала - кодировать или вменять? Я пытаюсь сначала кодировать с помощью...
88 просмотров

заменить отсутствующие значения в категориальных данных
Предположим, у меня есть столбец с категориальными данными "красный" "зеленый" "синий" и пустые ячейки. red green red blue NaN Я уверен, что NaN принадлежит красно-зеленому синему, следует ли мне заменить NaN на среднее значение цветов или...
3735 просмотров

Тепловая карта количества категориальных переменных
У меня есть фрейм данных элементов, и у каждого есть несколько столбцов классификатора, которые являются категориальными переменными. ID test1 test2 test3 1 A B A 2 B A C 3 C C C 4...
2881 просмотров
schedule 21.02.2022

Если я LabelEncode категориальные данные, нужно ли мне все равно использовать category_feature при создании набора данных LightGBM?
Я пытаюсь создать простую модель в lightgbm, используя две функции: одна категориальная, а другая - дистанционная. Я следую руководству ( https://sefiks.com/2018/10/13/a-gentle-introduction-to-lightgbm-for-applied-machine-learning/ ), в котором...
2221 просмотров
schedule 21.02.2022

подсчет частоты с категориальными переменными
У меня две категориальные переменные. Переменная A имеет около 15 уровней, а переменная B имеет фиктивный код (0,1). Я ищу таблицу с частотой единиц в переменной B для каждого из 15 уровней переменной A.
31 просмотров
schedule 19.02.2022