Вопросы по теме 'document-classification'
Классификация научных работ по названию.
Уважаемые все, я работаю над проектом, в котором мне нужно классифицировать исследовательские работы по соответствующим областям, используя названия статей. Например, если где-то в названии встречается фраза «компьютерная сеть», тогда этот документ...
563 просмотров
schedule
02.10.2021
Как получить атрибуты по классам из Weka
В моем наборе данных 11 классов / категорий. И для каждого класса есть свои экземпляры. Мне нужно знать атрибуты / слова, извлеченные Weka для каждой категории, и числовое значение, присвоенное каждому атрибуту. Есть ли способ сделать это?
399 просмотров
schedule
03.11.2021
Есть ли в Microsoft azure когнитивные службы для классификации файлов PDF или Word?
Я новичок в когнитивных службах Microsoft и прошел через индивидуальное видение, в котором мы можем классифицировать изображения, которые можно классифицировать на ходу. есть ли у нас аналогичный продукт, в который мы можем загрузить файл .PDF или...
762 просмотров
schedule
18.11.2021
Какой алгоритм классификации можно использовать для категоризации документов?
Привет, вот моя проблема
Учитывая набор документов, мне нужно отнести каждый документ к заранее определенной категории.
Я собирался использовать подход n-грамм для представления текстового содержимого каждого документа, а затем обучить...
4960 просмотров
schedule
26.04.2022
Машинное обучение. Какой подход использовать, когда набор данных содержит экземпляры только одного класса?
У меня есть набор данных определенного домена (скажем, спорт - 1 класс). Что я хочу сделать, так это когда я передал веб-страницу классификатору/кластеру, я хочу получить результат, связан ли этот экземпляр (веб-страница) со спортом или нет....
337 просмотров
schedule
21.05.2022
Различные результаты между наивным байесовским алгоритмом Бернулли в NLTK и в scikit-learn
Я получаю совершенно разные результаты при классификации текста (только в двух категориях) с помощью алгоритма Бернулли Наивного Байеса в NLTK и в модуле scikit-learn. Хотя общая точность этих двух методов сопоставима (хотя и далека от идентичной),...
1104 просмотров
schedule
24.05.2022
Алгоритм Centroid для классификации документов, обнаружение порога
У меня есть коллекция документов, связанных с определенным доменом, и я обучил классификатор центроидов на основе этой коллекции. Что я хочу сделать, так это передать классификатору документы из разных доменов и определить, насколько они относятся к...
1292 просмотров
schedule
28.05.2022
Как я могу выполнить классификацию ансамбля (мультиклассификатора) с помощью scikit-learn?
У меня есть довольно ограниченный набор данных, на котором я выполняю контролируемое обучение, многоклассовую классификацию текста с использованием scikit-learn. Чтобы немного смягчить нехватку информации, я хотел сделать следующее:
Извлеките...
858 просмотров
schedule
16.07.2022
Упорядочить / контекстно-зависимый документ / предложение для векторов в Spacy
Я хотел бы выполнять несколько контролируемых задач двоичной классификации с предложениями и использовал spaCy из-за его простоты использования. Я использовал spaCy для преобразования текста в векторы, а затем отправил векторы в модель машинного...
165 просмотров
schedule
09.08.2022
Сравните документы по вектору последовательности
Я пытаюсь классифицировать документы по вектору последовательности. В основном, у меня есть словарный запас (более 5000 слов). Каждый документ преобразуется в вектор целых чисел, так что каждый элемент вектора соответствует позиции слова в словаре....
81 просмотров
schedule
04.09.2022
Мультиклассовая классификация текста с одним обучающим примером для каждого класса
Я пытаюсь решить проблему классификации документов с одной меткой, состоящей из нескольких классов, присваивая документу один класс. Документы представляют собой технические документы для конкретной предметной области с техническими условиями:...
37 просмотров
schedule
16.09.2022
Набор наивных байесовских словарей?
Я читаю этот документ, чтобы получить представление о наивном байесовском подходе. Должна быть ссылка на 35 страницу.
https://web.stanford.edu/class/cs124/lec/naivebayes.pdf#page=35
при наличии двух документов «a b b» и «c d d» словарный...
37 просмотров
schedule
04.10.2022
классифицировать массив ячеек в Matlab
Я хочу выполнить категоризацию текста в наборе данных новостей. У меня есть много функций, таких как subject , keyword , summary и т. д.... все эти функции хранятся в одном массиве ячеек структур, каждая структура выглядит так:
label:...
561 просмотров
schedule
16.01.2023
Как я могу классифицировать текстовые документы с помощью SVM и KNN
Почти все примеры основаны на числах. В текстовых документах у меня есть слова вместо цифр.
Итак, вы можете показать мне простые примеры того, как использовать эти алгоритмы для классификации текстовых документов.
Мне не нужен пример кода, а...
10513 просмотров
schedule
01.12.2022
Libsvm: нормализация SVM начинается с 0 или 0,001
Я использую libsvm для классификации документов.
Я использую svm.h и svm.cc только в своем проекте.
Для его структуры svm_problem требуется массив svm_node, которые не равны нулю, поэтому используется разреженный.
Я получаю вектор слов...
897 просмотров
schedule
21.07.2023
Mahout Наивная байесовская классификация CSV
У меня есть эти 2 файла CSV:
поезд-set.csv
test-set.csv
Оба они имеют одинаковую структуру (с разным содержанием) и похожи на этот пример:
Каждый столбец представляет собой функцию, а последний столбец — class — это имя класса...
3392 просмотров
schedule
10.01.2023
НЛТК - Классификация с несколькими метками
Я использую NLTK для классификации документов - с 1 меткой для каждого, с 10 типами документов.
Для извлечения текста я очищаю текст (удаление знаков препинания, удаление тегов html, строчные буквы), удаляю nltk.corpus.stopwords, а также свой...
2075 просмотров
schedule
06.03.2023
Как изменить данные корпуса в подходящий формат для обучения с пакетом 'caret' в R?
В-1. Как изменить данные корпуса в соответствующий формат для обучения с помощью пакета 'caret'?
Прежде всего, я хотел бы дать вам некоторые условия для этого вопроса, и я покажу вам, где я застрял.
Среды
Это корпус, который...
834 просмотров
schedule
13.06.2023
Как рассчитать разностный вектор в word2vec
У меня есть двоичный файл word2vec, и я использую gensim для его загрузки.
Хотя в gensim есть функция для получения similarity между двумя словами, но нет функции для вычисления и возврата вектора разницы.
Как я могу использовать два вектора...
809 просмотров
schedule
26.01.2023
Можно ли использовать SVM для изучения обучающей выборки с вводом матрицы признаков, а не вектора признаков?
Можно ли использовать SVM для изучения обучающей выборки с вводом «Матрицы признаков», а не «Вектора признаков»? Мне нужно классифицировать XML-документы, представляя каждый документ в виде матрицы функций. Как правило, вектор признаков используется...
180 просмотров
schedule
16.11.2023