Статьи по теме nltk

Публикации по теме 'nltk'

Стемминг и лемматизация с использованием NLTK

Если вы не установили NLTK, вам необходимо сначала установить NLTK › pip install nltk импортировать nltk из nltk.stem импортировать PorterStemmer, WordNetLemmatizer из nltk.corpus импортировать стоп-слова sentimentPara = """У меня есть три видения Индии. За 3000 лет нашей истории люди со всего мира пришли и вторглись к нам, захватили наши земли, покорили наши умы. Начиная с Александра, греки, турки, моголы, португальцы, англичане, французы, голландцы, все они пришли и грабили..

Моё мнение? Часть 3. Насколько хорошо вы разбираетесь в правилах?

Анализ тональности, как мы объясняли ранее (см. Предыдущие статьи о типах и проблемах ), исследует мнения, содержащиеся в письменной речи. Как специалист по данным, вы в большинстве случаев пытаетесь научить компьютер определять текст как положительный или отрицательный. Итак, когда вы анализируете какой-либо документ, вы следуете довольно простой процедуре: сначала вы разделяете документ на его компактные части (предложения, токены и части речи), затем вы определяете компоненты,..

Классификация текста в Python: конвейеры, NLP, NLTK, Tf-Idf, XGBoost и другие

В этой первой статье о классификации текста в Python я рассмотрю основы настройки конвейера для обработки естественного языка и классификации текста. Я сосредоточусь в основном на самых сложных моментах, с которыми мне пришлось столкнуться, и дам общую основу для построения вашего собственного классификатора. Проблема очень проста: взять обучающие данные, представленные абзацами текста, которые помечены как 1 или 0. Для большей предыстории я работал с корпоративными документами SEC,..

Настройка Stanford Parser и Stanford NER Tagger с NLTK в python в Windows и Linux

Я искал руководства по настройке Stanford Parser с NLTK в python для Windows, но потерпел неудачу, поэтому решил написать самостоятельно. Прежде всего, это руководство для людей, которые уже установили библиотеку NLTK. Если вы новичок в обработке естественного языка, я предлагаю вам немного глубже изучить NLP и Python или просто пакет NLTK. Конфигурация моей системы Python 2.7.12 НЛТК 3.2.1 Java 1.8.0_101 Как проверить? Для Python Откройте командную строку и введите..

Вопросы по теме 'nltk'

Кто-нибудь слышал, когда выйдет NLTK 3.0?

На веб-сайте http://www.nltk.org очень расплывчато указана середина 2011 года. Я хотел бы начать использовать NLTK, однако я довольно много поработал с Python 3.x, и я не хочу возвращаться назад в версии Python, чтобы использовать его. Просто...

4120 просмотров

python-3.x nltk

30.11.2021

Как получить потоковые данные из твиттера, подключиться к pycurl с помощью nltk - регулярное выражение

Я новичок в Python, и мой босс дал задание: Получение потоковых данных из твиттера, соединение с pycurl и вывод в JSON Парсинг с использованием NLTK и регулярного выражения Сохраните его в файл базы данных (mySQL) или файловую базу (txt)...

786 просмотров

streaming regex real-time nltk pycurl

23.11.2021

Использование предварительно обученной модели MaltParser с NLTK

Может ли кто-нибудь сказать мне, как использовать предварительно обученную модель MaltParser (http://maltparser.org/mco/english_parser/engmalt.html) в nltk.parse.malt? Кажется, единственный вариант - тренироваться из файла (если бы кто-нибудь мог...

1825 просмотров

python parsing nltk

26.09.2021

Найдите синонимы для фраз из нескольких слов

Может ли библиотека Python NLTK предлагать / создавать синонимы для групп слов? Например; для слова / группы «основное блюдо» могу ли я использовать NLTK, чтобы получить синонимы «основное блюдо», «основное блюдо», «ужин» и т. д.? Вот мой...

3553 просмотров

python nlp nltk

06.10.2021

Реализация idf с помощью nltk

Учитывая предложение: «Быстрая коричневая лиса перепрыгнула через ленивую собаку», я хотел бы получить оценку того, насколько часто встречается каждое слово из корпуса nltk (какой корпус является наиболее общим / всеобъемлющим) РЕДАКТИРОВАТЬ:...

1711 просмотров

python nlp nltk tf-idf

02.11.2021

Техника анализа настроений в Twitter

Я делаю проект по анализу настроений в твиттере, но есть некоторые вещи, над которыми я размышляю. Поскольку твиты очень короткие (менее 140 символов), какие методы анализа текста применимы лучше всего. Например. Работает ли стемминг так же...

2114 просмотров

python nltk

08.10.2021

Оптимизация скрипта Python для извлечения и обработки больших файлов данных

Я новичок в python и наивно написал сценарий python для следующей задачи: Я хочу создать набор слов, представляющих несколько объектов. Каждый объект - это, по сути, пара, и должен быть составлен набор слов для синопсиса. Таким образом, объект...

1630 просмотров

python nltk

26.10.2021

Как интегрировать NLTK с Hadoop HDFS?

У меня есть рабочая программа анализа настроений с использованием NLTK, которая считывает текст из файла .txt, размещенного на моем локальном компьютере. Теперь я хотел бы прочитать текстовый файл, помещенный в Hadoop HDFS, и выполнить такой же...

565 просмотров

hadoop hdfs nltk hadoop-streaming

27.09.2021

Как изменить метод сглаживания наивного байесовского классификатора в NLTK？

Я обучил классификатор спама, используя метод NLTK Naive Bayes. И набор для спама, и набор не для спама содержат в обучении 20 000 экземпляров слов. Я заметил, что при обнаружении неизвестных функций classifier дает 0.5 вероятность спама:...

1551 просмотров

python machine-learning nltk bayesian smoothing

04.11.2021

NLTK Превращение поддерева в список при фрагментировании каналов python / RSS

Используя приведенный ниже код, я фрагментирую уже помеченный и токенизированный RSS-канал. "Print subtree.leaves ()" выводит: [('Prime', 'NNP'), ('министр', 'NNP'), ('Стивен', 'NNP'), ('Harper', 'NNP')] [('США', 'NNP' ), ('Президент', 'NNP'),...

1953 просмотров

list parsing nltk chunks tree

02.10.2021

Как использовать метаданные в классификаторах NLTK

Насколько я могу понять примеры использования классификатора NLTK: http://nbviewer.ipython.org/github/carljv/Will_it_Python/blob/master/MLFH/CH3/ch3_nltk.ipynb http://www.nltk.org/book/ch06.html Интерфейс классификации NLTK с...

419 просмотров

python nlp nltk

06.11.2021

Прилагательные, употребляемые с именованными сущностями

Я использовал приведенный ниже код Python для извлечения именованных сущностей, присутствующих в тексте. Теперь мне нужно получить прилагательные из тех предложений в тексте, где есть именованный объект. то есть прилагательное, используемое с...

457 просмотров

python entity-framework named-entity-recognition nltk

21.09.2021

Анализ зависимостей с использованием MaltParser и NLTK

Рассмотрим предложение new_sent = '''PeterParker loves MaryJane.''' Я пытаюсь разобрать это предложение, используя malparser и NLTK следующим образом: maltParser = nltk.parse.malt.MaltParser(working_dir="/Applications/maltparser-1.7.2",...

220 просмотров

dependencies parsing nltk

20.10.2021

Обучение теггеру NLTK Brill, но с использованием текстового файла в качестве входных данных

Всем привет. Сейчас я делаю свой последний годовой проект под названием «Tagger Part-Of-Speech Tagger для малайского языка с использованием Brill Tagger». Я хочу спросить, как тренировать предложения с тегами, которые я сохранил в текстовом файле?...

2058 просмотров

python nltk pos-tagger

23.11.2021

Как перечислить все формы слова с помощью NLTK в Python

Мне нужно перечислить все формы (глагол, существительное, сравнительная, превосходная, прилагательное и наречие) слова, используя библиотеку NLTK в Python. Например, если у меня есть слово «писать», результат должен быть следующим: написал писатель...

5461 просмотров

python-2.7 nltk

01.12.2021

деление с плавающей запятой на ноль ошибка, связанная с ngram и nltk

Моя задача - использовать 10-кратный метод перекрестной проверки с uni, bi и триграммами в корпусе и сравнить их точность. Однако я застрял с ошибкой деления с плавающей запятой. Все эти коды выдаются установщиком вопросов, за исключением цикла,...

740 просмотров

python nltk

26.10.2021

Классификация одного предложения

У меня есть 4 разные категории, и у меня также есть около 3000 слов, которые относятся к каждой из этих категорий. Теперь, если приходит новое предложение, я могу разбить предложение на слова и получить больше слов, связанных с ним. Скажем, для...

517 просмотров

machine-learning nlp nltk text-classification lda

10.11.2021

токенизатор предложений nltk, считайте новые строки границей предложения

Я использую PunkSentenceTokenizer nltk для разметки текста в набор предложений. Однако токенизатор, похоже, не рассматривает новый абзац или новые строки как новое предложение. >>> from nltk.tokenize.punkt import...

7198 просмотров

python nlp tokenize nltk

10.10.2021

Tagger для отдельных слов в NLTK

Существует ли средство тегирования, которое возвращало бы один тег для слова в любом контексте? Мое требование состоит в том, что мне нужно извлекать слова из неструктурированного текста, в предложениях которого нет структурированной грамматики....

997 просмотров

python nltk pos-tagger

11.10.2021

Аналогичный метод из модуля nltk дает разные результаты на разных машинах. Почему?

Я провел несколько вводных классов по интеллектуальному анализу текста с помощью Python, и класс попробовал аналогичный метод с предоставленными практическими текстами. Некоторые студенты получили разные результаты для text1.similar (), чем другие....

2513 просмотров

python nlp nltk corpus similarity

17.11.2021