Публикации по теме 'text-analysis'


Можно ли доверять инструментам анализа текста и настроений для интерпретации человеческих данных?
Можно ли доверять инструментам анализа текста и настроений для интерпретации человеческих данных? Если вы читали мой другой блог ( Важность гуманизации понимания ), вы должны знать, что я не верю в искусственный интеллект как замену человеку-исследователю, но я верю в его преимущества как вспомогательной технологии. . Для меня инструменты анализа текста и настроений ничем не отличаются. Это фантастический способ сэкономить время и ресурсы в определенных областях...

Разбираемся с деревьями синтаксического анализа
Полезно для НЛП. Не все так сложно. Хотя мы читаем, пишем и говорим в последовательном порядке, на практике слова выстраиваются в иерархию. По мере овладения нашим родным языком эта иерархия становится второй натурой, поэтому нам редко приходится останавливаться и думать, какие слова должны идти, чтобы сформировать законченное предложение. Деревья синтаксического анализа - это способ явно визуализировать эту иерархию в виде древовидного графа. Еще несколько лет назад большая часть..

Вопросы по теме 'text-analysis'

Попытка заставить взвешивание tf-idf работать в R
Я пытаюсь провести базовый анализ текста с помощью пакета tm и получить несколько оценок tf-idf; Я использую OS X (хотя я пробовал это в Debian Squeeze с тем же результатом); У меня есть каталог (это мой рабочий каталог) с парой текстовых файлов в...
23442 просмотров
schedule 02.10.2021

Как с помощью машинного обучения извлекать из документа большие фрагменты текста?
В настоящее время я изучаю машинное обучение, так как думаю, что это может помочь решить мою проблему. Однако я не уверен, какие методы мне следует применить для решения моей проблемы. Я заранее прошу прощения за то, что, вероятно, недостаточно знаю...
787 просмотров
schedule 07.09.2021

Как создать модель gensim word2vec с использованием предварительно обученных векторов слов?
Я создал векторы слов, используя распределенный алгоритм word2vec. Теперь у меня есть слова и соответствующие им векторы. Как построить модель gensim word2vec, используя эти слова и векторы?
3016 просмотров

Как проверить, содержит ли строка римские цифры в R?
У меня есть столбец для адресов проживания в моем наборе данных "объявление". Я хочу проверить адреса, на которых нет цифр (включая римские цифры). я использую ad$check <- grepl("[[:digit:]]",ad$address) отмечать адреса без цифр. Как...
815 просмотров
schedule 01.10.2021

ValueError: найдены массивы с несовместимым количеством выборок [6 1786]
Вот мой код: from sklearn.svm import SVC from sklearn.grid_search import GridSearchCV from sklearn.cross_validation import KFold from sklearn.feature_extraction.text import TfidfVectorizer from sklearn import datasets import numpy as np...
5135 просмотров

как извлечь нужную мне информацию с помощью NLKT
Я хочу извлечь соответствующую информацию по нескольким темам. Например: Информация о товаре покупательский опыт клиента рекомендация семьи или друга На первом этапе я извлекаю информацию с одного из веб-сайтов. например : Я...
206 просмотров

R- Анализ текста- Печать определенного текста, содержащего биграмму
Анализ текста с Р. Мой набор данных — 2000 комментариев из 2000 разных опросов. Я создал Биграммы. Я проверил частотность слов, затем кластерный анализ слов с hclust() , затем ассоциацию Word с findAssocs , например,...
47 просмотров

Извлечение текста из искаженного PDF
У меня есть файл PDF с ценной текстовой информацией. Проблема в том, что я не могу извлечь текст, все, что я получаю, это набор искаженных символов. То же самое произойдет, если я скопирую и вставлю текст из программы чтения PDF в текстовый файл....
38509 просмотров
schedule 03.09.2022

Пользовательский токенизатор для Java
Я разрабатываю приложение, в котором мне нужно обрабатывать текстовые файлы, содержащие электронные письма. Мне нужны все токены из текста, и следующее определение токена: буквенно-цифровой С учетом регистра (регистр должен быть сохранен)...
1743 просмотров

Python создает собственный словарь для анализа НЛП
Я довольно новичок в Python. Я хочу создать собственный словарь, чтобы объединить длинный (1 миллион строк) список запутанных названий компаний в очищенные имена. Могу ли я использовать для этого пакет nltk? Например: у меня есть приведенные ниже...
798 просмотров
schedule 09.09.2022

Регулярное выражение Python: вернуть все предложение с определенным словом в нем от периода к периоду
Ниже приведено предложение, которое я хочу обработать. Он состоит из идентификаторов, которые начинаются с двух решеток впереди ( ##2312435 ) плюс оставшийся текст. Мне нужно регулярное выражение, которое будет находить предложения со словом likely...
382 просмотров
schedule 21.09.2022

PHP оценивает строку как человеческое имя или другой текст
Ближайший существующий вопрос, который я нашел, это this или это Я хотел бы написать функцию или класс, который принимает строку, а затем на основе любых критериев, которые могут быть запрограммированы в нее, будет возвращать вероятность того,...
1740 просмотров
schedule 02.10.2022

Анализ текста в фрейме данных в r
Я работаю над метаданными Google Store и использую их как фрейм данных. Для каждого приложения есть информация о запрошенных разрешениях в одной ячейке в виде длинного текста, например: ПРОЧИТАЙТЕ КОНФИДЕНЦИАЛЬНЫЕ ДАННЫЕ ЖУРНАЛА|ПОЛУЧИТЕ...
134 просмотров
schedule 05.10.2022

Удаление пустого символа из корпуса документов в R?
Я использую пакеты tm и lda в R для тематического моделирования свода новостных статей. Однако я получаю «несимвольную» проблему, представленную как "" , которая портит мои темы. Вот мой рабочий процесс: text <-...
6884 просмотров

Переход от корпуса к отдельным файлам .txt в R's tm
У меня есть файл .csv с 6000 строк и 2 столбца. Я хотел бы записать каждую строку в виде отдельного текстового файла. Любые идеи относительно того, как это можно сделать в tm? Я попробовал writeCorpus() , но эта функция просто выдает 150 файлов...
1614 просмотров
schedule 09.04.2023

Определяйте стили элементов для всех размеров экрана
В Javascript мы можем использовать что-то вроде window.getComputedStyle(element,null).getPropertyValue(property) для получения свойства стиля данного элемента. При этом любое свойство может измениться с помощью адаптивного веб-дизайна при любом...
128 просмотров

Анализ текста с использованием пользовательских ключевых слов в R
Я пытаюсь векторизовать свои текстовые данные, используя пакет R tm. Сейчас мой корпус данных имеет следующий вид: 1. The sports team practiced today 2. The soccer team went took the day off тогда данные будут векторизованы в: <the,...
831 просмотров
schedule 08.06.2023

Как эффективно удалить стоп-слова из списка токенов ngram в R
Вот призыв к лучшему способу сделать то, что я уже могу делать неэффективно: отфильтровать серию n-граммовых токенов с помощью «стоп-слов» , чтобы вхождение любого термина стоп-слова в n- грамм триггеров удаления. Я бы очень хотел иметь одно...
4653 просмотров

Ошибка объекта недопустимого класса dfmSparse при запуске функции dfm в пакете quanteda R
Я использую quanteda, пакет R для управления и анализа текста. У меня проблемы с одной из его основных функций: "dfm", которая используется для построения частотной матрицы документа. Запуск функции # Install packages packages <-...
367 просмотров
schedule 12.08.2023

Глубокое обучение и анализ/извлечение текста
я пытаюсь построить модель, основанную на глубоком обучении, для извлечения определенного текста из длинных предложений. Предположим, текст из 200 слов и таблица, в которой у меня есть имя и фамилия моего клиента. Я пытаюсь построить модель для...
595 просмотров