Статьи по теме text-analysis

Публикации по теме 'text-analysis'

Можно ли доверять инструментам анализа текста и настроений для интерпретации человеческих данных?

Можно ли доверять инструментам анализа текста и настроений для интерпретации человеческих данных? Если вы читали мой другой блог ( Важность гуманизации понимания ), вы должны знать, что я не верю в искусственный интеллект как замену человеку-исследователю, но я верю в его преимущества как вспомогательной технологии. . Для меня инструменты анализа текста и настроений ничем не отличаются. Это фантастический способ сэкономить время и ресурсы в определенных областях...

Разбираемся с деревьями синтаксического анализа

Полезно для НЛП. Не все так сложно. Хотя мы читаем, пишем и говорим в последовательном порядке, на практике слова выстраиваются в иерархию. По мере овладения нашим родным языком эта иерархия становится второй натурой, поэтому нам редко приходится останавливаться и думать, какие слова должны идти, чтобы сформировать законченное предложение. Деревья синтаксического анализа - это способ явно визуализировать эту иерархию в виде древовидного графа. Еще несколько лет назад большая часть..

Вопросы по теме 'text-analysis'

Попытка заставить взвешивание tf-idf работать в R

Я пытаюсь провести базовый анализ текста с помощью пакета tm и получить несколько оценок tf-idf; Я использую OS X (хотя я пробовал это в Debian Squeeze с тем же результатом); У меня есть каталог (это мой рабочий каталог) с парой текстовых файлов в...

23442 просмотров

r tf-idf tm text-analysis

02.10.2021

Как с помощью машинного обучения извлекать из документа большие фрагменты текста?

В настоящее время я изучаю машинное обучение, так как думаю, что это может помочь решить мою проблему. Однако я не уверен, какие методы мне следует применить для решения моей проблемы. Я заранее прошу прощения за то, что, вероятно, недостаточно знаю...

787 просмотров

machine-learning nlp text-analysis

07.09.2021

Как создать модель gensim word2vec с использованием предварительно обученных векторов слов?

Я создал векторы слов, используя распределенный алгоритм word2vec. Теперь у меня есть слова и соответствующие им векторы. Как построить модель gensim word2vec, используя эти слова и векторы?

3016 просмотров

nlp gensim word-embedding word2vec text-analysis

27.10.2021

Как проверить, содержит ли строка римские цифры в R?

У меня есть столбец для адресов проживания в моем наборе данных "объявление". Я хочу проверить адреса, на которых нет цифр (включая римские цифры). я использую ad$check <- grepl("[[:digit:]]",ad$address) отмечать адреса без цифр. Как...

815 просмотров

r regex roman-numerals text-analysis

01.10.2021

ValueError: найдены массивы с несовместимым количеством выборок [6 1786]

Вот мой код: from sklearn.svm import SVC from sklearn.grid_search import GridSearchCV from sklearn.cross_validation import KFold from sklearn.feature_extraction.text import TfidfVectorizer from sklearn import datasets import numpy as np...

5135 просмотров

python machine-learning scikit-learn text-analysis

13.04.2022

как извлечь нужную мне информацию с помощью NLKT

Я хочу извлечь соответствующую информацию по нескольким темам. Например: Информация о товаре покупательский опыт клиента рекомендация семьи или друга На первом этапе я извлекаю информацию с одного из веб-сайтов. например : Я...

206 просмотров

python-3.x python dictionary bigdata text-analysis

17.04.2022

R- Анализ текста- Печать определенного текста, содержащего биграмму

Анализ текста с Р. Мой набор данных — 2000 комментариев из 2000 разных опросов. Я создал Биграммы. Я проверил частотность слов, затем кластерный анализ слов с hclust() , затем ассоциацию Word с findAssocs , например,...

47 просмотров

r hierarchical-clustering tm text-analysis qdap

08.07.2022

Извлечение текста из искаженного PDF

У меня есть файл PDF с ценной текстовой информацией. Проблема в том, что я не могу извлечь текст, все, что я получаю, это набор искаженных символов. То же самое произойдет, если я скопирую и вставлю текст из программы чтения PDF в текстовый файл....

38509 просмотров

pdf file-format text-analysis

03.09.2022

Пользовательский токенизатор для Java

Я разрабатываю приложение, в котором мне нужно обрабатывать текстовые файлы, содержащие электронные письма. Мне нужны все токены из текста, и следующее определение токена: буквенно-цифровой С учетом регистра (регистр должен быть сохранен)...

1743 просмотров

java token tokenize text-processing text-analysis

13.09.2022

Python создает собственный словарь для анализа НЛП

Я довольно новичок в Python. Я хочу создать собственный словарь, чтобы объединить длинный (1 миллион строк) список запутанных названий компаний в очищенные имена. Могу ли я использовать для этого пакет nltk? Например: у меня есть приведенные ниже...

798 просмотров

python nlp nltk text-analysis

09.09.2022

Регулярное выражение Python: вернуть все предложение с определенным словом в нем от периода к периоду

Ниже приведено предложение, которое я хочу обработать. Он состоит из идентификаторов, которые начинаются с двух решеток впереди ( ##2312435 ) плюс оставшийся текст. Мне нужно регулярное выражение, которое будет находить предложения со словом likely...

382 просмотров

python regex text-analysis

21.09.2022

PHP оценивает строку как человеческое имя или другой текст

Ближайший существующий вопрос, который я нашел, это this или это Я хотел бы написать функцию или класс, который принимает строку, а затем на основе любых критериев, которые могут быть запрограммированы в нее, будет возвращать вероятность того,...

1740 просмотров

php text-analysis

02.10.2022

Анализ текста в фрейме данных в r

Я работаю над метаданными Google Store и использую их как фрейм данных. Для каждого приложения есть информация о запрошенных разрешениях в одной ячейке в виде длинного текста, например: ПРОЧИТАЙТЕ КОНФИДЕНЦИАЛЬНЫЕ ДАННЫЕ ЖУРНАЛА|ПОЛУЧИТЕ...

134 просмотров

r text-analysis

05.10.2022

Удаление пустого символа из корпуса документов в R?

Я использую пакеты tm и lda в R для тематического моделирования свода новостных статей. Однако я получаю «несимвольную» проблему, представленную как "" , которая портит мои темы. Вот мой рабочий процесс: text <-...

6884 просмотров

r text-mining topic-modeling lda text-analysis

08.03.2023

Переход от корпуса к отдельным файлам .txt в R's tm

У меня есть файл .csv с 6000 строк и 2 столбца. Я хотел бы записать каждую строку в виде отдельного текстового файла. Любые идеи относительно того, как это можно сделать в tm? Я попробовал writeCorpus() , но эта функция просто выдает 150 файлов...

1614 просмотров

r text-mining corpus tm text-analysis

09.04.2023

Определяйте стили элементов для всех размеров экрана

В Javascript мы можем использовать что-то вроде window.getComputedStyle(element,null).getPropertyValue(property) для получения свойства стиля данного элемента. При этом любое свойство может измениться с помощью адаптивного веб-дизайна при любом...

128 просмотров

javascript responsive-design media-queries stylesheet text-analysis

08.10.2023

Анализ текста с использованием пользовательских ключевых слов в R

Я пытаюсь векторизовать свои текстовые данные, используя пакет R tm. Сейчас мой корпус данных имеет следующий вид: 1. The sports team practiced today 2. The soccer team went took the day off тогда данные будут векторизованы в: <the,...

831 просмотров

r corpus text-analysis

08.06.2023

Как эффективно удалить стоп-слова из списка токенов ngram в R

Вот призыв к лучшему способу сделать то, что я уже могу делать неэффективно: отфильтровать серию n-граммовых токенов с помощью «стоп-слов» , чтобы вхождение любого термина стоп-слова в n- грамм триггеров удаления. Я бы очень хотел иметь одно...

4653 просмотров

r performance n-gram stop-words text-analysis

02.03.2023

Ошибка объекта недопустимого класса dfmSparse при запуске функции dfm в пакете quanteda R

Я использую quanteda, пакет R для управления и анализа текста. У меня проблемы с одной из его основных функций: "dfm", которая используется для построения частотной матрицы документа. Запуск функции # Install packages packages <-...

367 просмотров

r quanteda text-analysis

12.08.2023

Глубокое обучение и анализ/извлечение текста

я пытаюсь построить модель, основанную на глубоком обучении, для извлечения определенного текста из длинных предложений. Предположим, текст из 200 слов и таблица, в которой у меня есть имя и фамилия моего клиента. Я пытаюсь построить модель для...

595 просмотров

deep-learning word2vec text-mining text-classification text-analysis

08.11.2022