Публикации по теме 'nltk'
Стемминг и лемматизация с использованием NLTK
Если вы не установили NLTK, вам необходимо сначала установить NLTK › pip install nltk
импортировать nltk из nltk.stem импортировать PorterStemmer, WordNetLemmatizer из nltk.corpus импортировать стоп-слова
sentimentPara = """У меня есть три видения Индии. За 3000 лет нашей истории люди со всего мира пришли и вторглись к нам, захватили наши земли, покорили наши умы. Начиная с Александра, греки, турки, моголы, португальцы, англичане, французы, голландцы, все они пришли и грабили..
Моё мнение? Часть 3. Насколько хорошо вы разбираетесь в правилах?
Анализ тональности, как мы объясняли ранее (см. Предыдущие статьи о типах и проблемах ), исследует мнения, содержащиеся в письменной речи. Как специалист по данным, вы в большинстве случаев пытаетесь научить компьютер определять текст как положительный или отрицательный. Итак, когда вы анализируете какой-либо документ, вы следуете довольно простой процедуре: сначала вы разделяете документ на его компактные части (предложения, токены и части речи), затем вы определяете компоненты,..
Классификация текста в Python: конвейеры, NLP, NLTK, Tf-Idf, XGBoost и другие
В этой первой статье о классификации текста в Python я рассмотрю основы настройки конвейера для обработки естественного языка и классификации текста. Я сосредоточусь в основном на самых сложных моментах, с которыми мне пришлось столкнуться, и дам общую основу для построения вашего собственного классификатора.
Проблема очень проста: взять обучающие данные, представленные абзацами текста, которые помечены как 1 или 0. Для большей предыстории я работал с корпоративными документами SEC,..
Настройка Stanford Parser и Stanford NER Tagger с NLTK в python в Windows и Linux
Я искал руководства по настройке Stanford Parser с NLTK в python для Windows, но потерпел неудачу, поэтому решил написать самостоятельно. Прежде всего, это руководство для людей, которые уже установили библиотеку NLTK. Если вы новичок в обработке естественного языка, я предлагаю вам немного глубже изучить NLP и Python или просто пакет NLTK.
Конфигурация моей системы
Python 2.7.12 НЛТК 3.2.1 Java 1.8.0_101
Как проверить?
Для Python
Откройте командную строку и введите..
Вопросы по теме 'nltk'
Кто-нибудь слышал, когда выйдет NLTK 3.0?
На веб-сайте http://www.nltk.org очень расплывчато указана середина 2011 года. Я хотел бы начать использовать NLTK, однако я довольно много поработал с Python 3.x, и я не хочу возвращаться назад в версии Python, чтобы использовать его. Просто...
4120 просмотров
schedule
30.11.2021
Как получить потоковые данные из твиттера, подключиться к pycurl с помощью nltk - регулярное выражение
Я новичок в Python, и мой босс дал задание:
Получение потоковых данных из твиттера, соединение с pycurl и вывод в JSON
Парсинг с использованием NLTK и регулярного выражения
Сохраните его в файл базы данных (mySQL) или файловую базу (txt)...
786 просмотров
schedule
23.11.2021
Использование предварительно обученной модели MaltParser с NLTK
Может ли кто-нибудь сказать мне, как использовать предварительно обученную модель MaltParser (http://maltparser.org/mco/english_parser/engmalt.html) в nltk.parse.malt? Кажется, единственный вариант - тренироваться из файла (если бы кто-нибудь мог...
1825 просмотров
schedule
26.09.2021
Найдите синонимы для фраз из нескольких слов
Может ли библиотека Python NLTK предлагать / создавать синонимы для групп слов?
Например; для слова / группы «основное блюдо» могу ли я использовать NLTK, чтобы получить синонимы «основное блюдо», «основное блюдо», «ужин» и т. д.?
Вот мой...
3553 просмотров
schedule
06.10.2021
Реализация idf с помощью nltk
Учитывая предложение: «Быстрая коричневая лиса перепрыгнула через ленивую собаку», я хотел бы получить оценку того, насколько часто встречается каждое слово из корпуса nltk (какой корпус является наиболее общим / всеобъемлющим)
РЕДАКТИРОВАТЬ:...
1711 просмотров
schedule
02.11.2021
Техника анализа настроений в Twitter
Я делаю проект по анализу настроений в твиттере, но есть некоторые вещи, над которыми я размышляю.
Поскольку твиты очень короткие (менее 140 символов), какие методы анализа текста применимы лучше всего. Например. Работает ли стемминг так же...
2114 просмотров
schedule
08.10.2021
Оптимизация скрипта Python для извлечения и обработки больших файлов данных
Я новичок в python и наивно написал сценарий python для следующей задачи:
Я хочу создать набор слов, представляющих несколько объектов. Каждый объект - это, по сути, пара, и должен быть составлен набор слов для синопсиса. Таким образом, объект...
1630 просмотров
schedule
26.10.2021
Как интегрировать NLTK с Hadoop HDFS?
У меня есть рабочая программа анализа настроений с использованием NLTK, которая считывает текст из файла .txt, размещенного на моем локальном компьютере. Теперь я хотел бы прочитать текстовый файл, помещенный в Hadoop HDFS, и выполнить такой же...
565 просмотров
schedule
27.09.2021
Как изменить метод сглаживания наивного байесовского классификатора в NLTK?
Я обучил классификатор спама, используя метод NLTK Naive Bayes. И набор для спама, и набор не для спама содержат в обучении 20 000 экземпляров слов.
Я заметил, что при обнаружении неизвестных функций classifier дает 0.5 вероятность спама:...
1551 просмотров
schedule
04.11.2021
NLTK Превращение поддерева в список при фрагментировании каналов python / RSS
Используя приведенный ниже код, я фрагментирую уже помеченный и токенизированный RSS-канал. "Print subtree.leaves ()" выводит:
[('Prime', 'NNP'), ('министр', 'NNP'), ('Стивен', 'NNP'), ('Harper', 'NNP')] [('США', 'NNP' ), ('Президент', 'NNP'),...
1953 просмотров
schedule
02.10.2021
Как использовать метаданные в классификаторах NLTK
Насколько я могу понять примеры использования классификатора NLTK:
http://nbviewer.ipython.org/github/carljv/Will_it_Python/blob/master/MLFH/CH3/ch3_nltk.ipynb
http://www.nltk.org/book/ch06.html
Интерфейс классификации NLTK с...
419 просмотров
schedule
06.11.2021
Прилагательные, употребляемые с именованными сущностями
Я использовал приведенный ниже код Python для извлечения именованных сущностей, присутствующих в тексте. Теперь мне нужно получить прилагательные из тех предложений в тексте, где есть именованный объект. то есть прилагательное, используемое с...
457 просмотров
schedule
21.09.2021
Анализ зависимостей с использованием MaltParser и NLTK
Рассмотрим предложение
new_sent = '''PeterParker loves MaryJane.'''
Я пытаюсь разобрать это предложение, используя malparser и NLTK следующим образом:
maltParser = nltk.parse.malt.MaltParser(working_dir="/Applications/maltparser-1.7.2",...
220 просмотров
schedule
20.10.2021
Обучение теггеру NLTK Brill, но с использованием текстового файла в качестве входных данных
Всем привет. Сейчас я делаю свой последний годовой проект под названием «Tagger Part-Of-Speech Tagger для малайского языка с использованием Brill Tagger».
Я хочу спросить, как тренировать предложения с тегами, которые я сохранил в текстовом файле?...
2058 просмотров
schedule
23.11.2021
Как перечислить все формы слова с помощью NLTK в Python
Мне нужно перечислить все формы (глагол, существительное, сравнительная, превосходная, прилагательное и наречие) слова, используя библиотеку NLTK в Python. Например, если у меня есть слово «писать», результат должен быть следующим: написал писатель...
5461 просмотров
schedule
01.12.2021
деление с плавающей запятой на ноль ошибка, связанная с ngram и nltk
Моя задача - использовать 10-кратный метод перекрестной проверки с uni, bi и триграммами в корпусе и сравнить их точность. Однако я застрял с ошибкой деления с плавающей запятой. Все эти коды выдаются установщиком вопросов, за исключением цикла,...
740 просмотров
schedule
26.10.2021
Классификация одного предложения
У меня есть 4 разные категории, и у меня также есть около 3000 слов, которые относятся к каждой из этих категорий. Теперь, если приходит новое предложение, я могу разбить предложение на слова и получить больше слов, связанных с ним. Скажем, для...
517 просмотров
schedule
10.11.2021
токенизатор предложений nltk, считайте новые строки границей предложения
Я использую PunkSentenceTokenizer nltk для разметки текста в набор предложений. Однако токенизатор, похоже, не рассматривает новый абзац или новые строки как новое предложение.
>>> from nltk.tokenize.punkt import...
7198 просмотров
schedule
10.10.2021
Tagger для отдельных слов в NLTK
Существует ли средство тегирования, которое возвращало бы один тег для слова в любом контексте?
Мое требование состоит в том, что мне нужно извлекать слова из неструктурированного текста, в предложениях которого нет структурированной грамматики....
997 просмотров
schedule
11.10.2021
Аналогичный метод из модуля nltk дает разные результаты на разных машинах. Почему?
Я провел несколько вводных классов по интеллектуальному анализу текста с помощью Python, и класс попробовал аналогичный метод с предоставленными практическими текстами. Некоторые студенты получили разные результаты для text1.similar (), чем другие....
2513 просмотров
schedule
17.11.2021