Публикации по теме 'text-analysis'
Можно ли доверять инструментам анализа текста и настроений для интерпретации человеческих данных?
Можно ли доверять инструментам анализа текста и настроений для интерпретации человеческих данных?
Если вы читали мой другой блог ( Важность гуманизации понимания ), вы должны знать, что я не верю в искусственный интеллект как замену человеку-исследователю, но я верю в его преимущества как вспомогательной технологии. .
Для меня инструменты анализа текста и настроений ничем не отличаются. Это фантастический способ сэкономить время и ресурсы в определенных областях...
Разбираемся с деревьями синтаксического анализа
Полезно для НЛП. Не все так сложно.
Хотя мы читаем, пишем и говорим в последовательном порядке, на практике слова выстраиваются в иерархию. По мере овладения нашим родным языком эта иерархия становится второй натурой, поэтому нам редко приходится останавливаться и думать, какие слова должны идти, чтобы сформировать законченное предложение.
Деревья синтаксического анализа - это способ явно визуализировать эту иерархию в виде древовидного графа.
Еще несколько лет назад большая часть..
Вопросы по теме 'text-analysis'
Попытка заставить взвешивание tf-idf работать в R
Я пытаюсь провести базовый анализ текста с помощью пакета tm и получить несколько оценок tf-idf; Я использую OS X (хотя я пробовал это в Debian Squeeze с тем же результатом); У меня есть каталог (это мой рабочий каталог) с парой текстовых файлов в...
23442 просмотров
schedule
02.10.2021
Как с помощью машинного обучения извлекать из документа большие фрагменты текста?
В настоящее время я изучаю машинное обучение, так как думаю, что это может помочь решить мою проблему. Однако я не уверен, какие методы мне следует применить для решения моей проблемы. Я заранее прошу прощения за то, что, вероятно, недостаточно знаю...
787 просмотров
schedule
07.09.2021
Как создать модель gensim word2vec с использованием предварительно обученных векторов слов?
Я создал векторы слов, используя распределенный алгоритм word2vec. Теперь у меня есть слова и соответствующие им векторы. Как построить модель gensim word2vec, используя эти слова и векторы?
3016 просмотров
schedule
27.10.2021
Как проверить, содержит ли строка римские цифры в R?
У меня есть столбец для адресов проживания в моем наборе данных "объявление". Я хочу проверить адреса, на которых нет цифр (включая римские цифры). я использую
ad$check <- grepl("[[:digit:]]",ad$address)
отмечать адреса без цифр. Как...
815 просмотров
schedule
01.10.2021
ValueError: найдены массивы с несовместимым количеством выборок [6 1786]
Вот мой код:
from sklearn.svm import SVC
from sklearn.grid_search import GridSearchCV
from sklearn.cross_validation import KFold
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn import datasets
import numpy as np...
5135 просмотров
schedule
13.04.2022
как извлечь нужную мне информацию с помощью NLKT
Я хочу извлечь соответствующую информацию по нескольким темам. Например:
Информация о товаре
покупательский опыт клиента
рекомендация семьи или друга
На первом этапе я извлекаю информацию с одного из веб-сайтов. например :
Я...
206 просмотров
schedule
17.04.2022
R- Анализ текста- Печать определенного текста, содержащего биграмму
Анализ текста с Р.
Мой набор данных — 2000 комментариев из 2000 разных опросов. Я создал Биграммы. Я проверил частотность слов, затем кластерный анализ слов с hclust() , затем ассоциацию Word с findAssocs , например,...
47 просмотров
schedule
08.07.2022
Извлечение текста из искаженного PDF
У меня есть файл PDF с ценной текстовой информацией.
Проблема в том, что я не могу извлечь текст, все, что я получаю, это набор искаженных символов. То же самое произойдет, если я скопирую и вставлю текст из программы чтения PDF в текстовый файл....
38509 просмотров
schedule
03.09.2022
Пользовательский токенизатор для Java
Я разрабатываю приложение, в котором мне нужно обрабатывать текстовые файлы, содержащие электронные письма. Мне нужны все токены из текста, и следующее определение токена:
буквенно-цифровой
С учетом регистра (регистр должен быть сохранен)...
1743 просмотров
schedule
13.09.2022
Python создает собственный словарь для анализа НЛП
Я довольно новичок в Python. Я хочу создать собственный словарь, чтобы объединить длинный (1 миллион строк) список запутанных названий компаний в очищенные имена. Могу ли я использовать для этого пакет nltk?
Например: у меня есть приведенные ниже...
798 просмотров
schedule
09.09.2022
Регулярное выражение Python: вернуть все предложение с определенным словом в нем от периода к периоду
Ниже приведено предложение, которое я хочу обработать. Он состоит из идентификаторов, которые начинаются с двух решеток впереди ( ##2312435 ) плюс оставшийся текст. Мне нужно регулярное выражение, которое будет находить предложения со словом likely...
382 просмотров
schedule
21.09.2022
PHP оценивает строку как человеческое имя или другой текст
Ближайший существующий вопрос, который я нашел, это this или это
Я хотел бы написать функцию или класс, который принимает строку, а затем на основе любых критериев, которые могут быть запрограммированы в нее, будет возвращать вероятность того,...
1740 просмотров
schedule
02.10.2022
Анализ текста в фрейме данных в r
Я работаю над метаданными Google Store и использую их как фрейм данных. Для каждого приложения есть информация о запрошенных разрешениях в одной ячейке в виде длинного текста, например:
ПРОЧИТАЙТЕ КОНФИДЕНЦИАЛЬНЫЕ ДАННЫЕ ЖУРНАЛА|ПОЛУЧИТЕ...
134 просмотров
schedule
05.10.2022
Удаление пустого символа из корпуса документов в R?
Я использую пакеты tm и lda в R для тематического моделирования свода новостных статей. Однако я получаю «несимвольную» проблему, представленную как "" , которая портит мои темы. Вот мой рабочий процесс:
text <-...
6884 просмотров
schedule
08.03.2023
Переход от корпуса к отдельным файлам .txt в R's tm
У меня есть файл .csv с 6000 строк и 2 столбца. Я хотел бы записать каждую строку в виде отдельного текстового файла. Любые идеи относительно того, как это можно сделать в tm? Я попробовал writeCorpus() , но эта функция просто выдает 150 файлов...
1614 просмотров
schedule
09.04.2023
Определяйте стили элементов для всех размеров экрана
В Javascript мы можем использовать что-то вроде window.getComputedStyle(element,null).getPropertyValue(property) для получения свойства стиля данного элемента. При этом любое свойство может измениться с помощью адаптивного веб-дизайна при любом...
128 просмотров
schedule
08.10.2023
Анализ текста с использованием пользовательских ключевых слов в R
Я пытаюсь векторизовать свои текстовые данные, используя пакет R tm.
Сейчас мой корпус данных имеет следующий вид:
1. The sports team practiced today
2. The soccer team went took the day off
тогда данные будут векторизованы в:
<the,...
831 просмотров
schedule
08.06.2023
Как эффективно удалить стоп-слова из списка токенов ngram в R
Вот призыв к лучшему способу сделать то, что я уже могу делать неэффективно: отфильтровать серию n-граммовых токенов с помощью «стоп-слов» , чтобы вхождение любого термина стоп-слова в n- грамм триггеров удаления.
Я бы очень хотел иметь одно...
4653 просмотров
schedule
02.03.2023
Ошибка объекта недопустимого класса dfmSparse при запуске функции dfm в пакете quanteda R
Я использую quanteda, пакет R для управления и анализа текста. У меня проблемы с одной из его основных функций: "dfm", которая используется для построения частотной матрицы документа.
Запуск функции
# Install packages
packages <-...
367 просмотров
schedule
12.08.2023
Глубокое обучение и анализ/извлечение текста
я пытаюсь построить модель, основанную на глубоком обучении, для извлечения определенного текста из длинных предложений.
Предположим, текст из 200 слов и таблица, в которой у меня есть имя и фамилия моего клиента. Я пытаюсь построить модель для...
595 просмотров
schedule
08.11.2022