Вопросы по теме 'document-classification'

Классификация научных работ по названию.
Уважаемые все, я работаю над проектом, в котором мне нужно классифицировать исследовательские работы по соответствующим областям, используя названия статей. Например, если где-то в названии встречается фраза «компьютерная сеть», тогда этот документ...
563 просмотров

Как получить атрибуты по классам из Weka
В моем наборе данных 11 классов / категорий. И для каждого класса есть свои экземпляры. Мне нужно знать атрибуты / слова, извлеченные Weka для каждой категории, и числовое значение, присвоенное каждому атрибуту. Есть ли способ сделать это?
399 просмотров
schedule 03.11.2021

Есть ли в Microsoft azure когнитивные службы для классификации файлов PDF или Word?
Я новичок в когнитивных службах Microsoft и прошел через индивидуальное видение, в котором мы можем классифицировать изображения, которые можно классифицировать на ходу. есть ли у нас аналогичный продукт, в который мы можем загрузить файл .PDF или...
762 просмотров

Какой алгоритм классификации можно использовать для категоризации документов?
Привет, вот моя проблема Учитывая набор документов, мне нужно отнести каждый документ к заранее определенной категории. Я собирался использовать подход n-грамм для представления текстового содержимого каждого документа, а затем обучить...
4960 просмотров

Машинное обучение. Какой подход использовать, когда набор данных содержит экземпляры только одного класса?
У меня есть набор данных определенного домена (скажем, спорт - 1 класс). Что я хочу сделать, так это когда я передал веб-страницу классификатору/кластеру, я хочу получить результат, связан ли этот экземпляр (веб-страница) со спортом или нет....
337 просмотров

Различные результаты между наивным байесовским алгоритмом Бернулли в NLTK и в scikit-learn
Я получаю совершенно разные результаты при классификации текста (только в двух категориях) с помощью алгоритма Бернулли Наивного Байеса в NLTK и в модуле scikit-learn. Хотя общая точность этих двух методов сопоставима (хотя и далека от идентичной),...
1104 просмотров

Алгоритм Centroid для классификации документов, обнаружение порога
У меня есть коллекция документов, связанных с определенным доменом, и я обучил классификатор центроидов на основе этой коллекции. Что я хочу сделать, так это передать классификатору документы из разных доменов и определить, насколько они относятся к...
1292 просмотров

Как я могу выполнить классификацию ансамбля (мультиклассификатора) с помощью scikit-learn?
У меня есть довольно ограниченный набор данных, на котором я выполняю контролируемое обучение, многоклассовую классификацию текста с использованием scikit-learn. Чтобы немного смягчить нехватку информации, я хотел сделать следующее: Извлеките...
858 просмотров

Упорядочить / контекстно-зависимый документ / предложение для векторов в Spacy
Я хотел бы выполнять несколько контролируемых задач двоичной классификации с предложениями и использовал spaCy из-за его простоты использования. Я использовал spaCy для преобразования текста в векторы, а затем отправил векторы в модель машинного...
165 просмотров

Сравните документы по вектору последовательности
Я пытаюсь классифицировать документы по вектору последовательности. В основном, у меня есть словарный запас (более 5000 слов). Каждый документ преобразуется в вектор целых чисел, так что каждый элемент вектора соответствует позиции слова в словаре....
81 просмотров

Мультиклассовая классификация текста с одним обучающим примером для каждого класса
Я пытаюсь решить проблему классификации документов с одной меткой, состоящей из нескольких классов, присваивая документу один класс. Документы представляют собой технические документы для конкретной предметной области с техническими условиями:...
37 просмотров
schedule 16.09.2022

Набор наивных байесовских словарей?
Я читаю этот документ, чтобы получить представление о наивном байесовском подходе. Должна быть ссылка на 35 страницу. https://web.stanford.edu/class/cs124/lec/naivebayes.pdf#page=35 при наличии двух документов «a b b» и «c d d» словарный...
37 просмотров
schedule 04.10.2022

классифицировать массив ячеек в Matlab
Я хочу выполнить категоризацию текста в наборе данных новостей. У меня есть много функций, таких как subject , keyword , summary и т. д.... все эти функции хранятся в одном массиве ячеек структур, каждая структура выглядит так: label:...
561 просмотров

Как я могу классифицировать текстовые документы с помощью SVM и KNN
Почти все примеры основаны на числах. В текстовых документах у меня есть слова вместо цифр. Итак, вы можете показать мне простые примеры того, как использовать эти алгоритмы для классификации текстовых документов. Мне не нужен пример кода, а...
10513 просмотров

Libsvm: нормализация SVM начинается с 0 или 0,001
Я использую libsvm для классификации документов. Я использую svm.h и svm.cc только в своем проекте. Для его структуры svm_problem требуется массив svm_node, которые не равны нулю, поэтому используется разреженный. Я получаю вектор слов...
897 просмотров

Mahout Наивная байесовская классификация CSV
У меня есть эти 2 файла CSV: поезд-set.csv test-set.csv Оба они имеют одинаковую структуру (с разным содержанием) и похожи на этот пример: Каждый столбец представляет собой функцию, а последний столбец — class — это имя класса...
3392 просмотров
schedule 10.01.2023

НЛТК - Классификация с несколькими метками
Я использую NLTK для классификации документов - с 1 меткой для каждого, с 10 типами документов. Для извлечения текста я очищаю текст (удаление знаков препинания, удаление тегов html, строчные буквы), удаляю nltk.corpus.stopwords, а также свой...
2075 просмотров
schedule 06.03.2023

Как изменить данные корпуса в подходящий формат для обучения с пакетом 'caret' в R?
В-1. Как изменить данные корпуса в соответствующий формат для обучения с помощью пакета 'caret'? Прежде всего, я хотел бы дать вам некоторые условия для этого вопроса, и я покажу вам, где я застрял. Среды Это корпус, который...
834 просмотров

Как рассчитать разностный вектор в word2vec
У меня есть двоичный файл word2vec, и я использую gensim для его загрузки. Хотя в gensim есть функция для получения similarity между двумя словами, но нет функции для вычисления и возврата вектора разницы. Как я могу использовать два вектора...
809 просмотров

Можно ли использовать SVM для изучения обучающей выборки с вводом матрицы признаков, а не вектора признаков?
Можно ли использовать SVM для изучения обучающей выборки с вводом «Матрицы признаков», а не «Вектора признаков»? Мне нужно классифицировать XML-документы, представляя каждый документ в виде матрицы функций. Как правило, вектор признаков используется...
180 просмотров