Публикации по теме 'nltk'


Стемминг и лемматизация с использованием NLTK
Если вы не установили NLTK, вам необходимо сначала установить NLTK › pip install nltk импортировать nltk из nltk.stem импортировать PorterStemmer, WordNetLemmatizer из nltk.corpus импортировать стоп-слова sentimentPara = """У меня есть три видения Индии. За 3000 лет нашей истории люди со всего мира пришли и вторглись к нам, захватили наши земли, покорили наши умы. Начиная с Александра, греки, турки, моголы, португальцы, англичане, французы, голландцы, все они пришли и грабили..

Моё мнение? Часть 3. Насколько хорошо вы разбираетесь в правилах?
Анализ тональности, как мы объясняли ранее (см. Предыдущие статьи о типах и проблемах ), исследует мнения, содержащиеся в письменной речи. Как специалист по данным, вы в большинстве случаев пытаетесь научить компьютер определять текст как положительный или отрицательный. Итак, когда вы анализируете какой-либо документ, вы следуете довольно простой процедуре: сначала вы разделяете документ на его компактные части (предложения, токены и части речи), затем вы определяете компоненты,..

Классификация текста в Python: конвейеры, NLP, NLTK, Tf-Idf, XGBoost и другие
В этой первой статье о классификации текста в Python я рассмотрю основы настройки конвейера для обработки естественного языка и классификации текста. Я сосредоточусь в основном на самых сложных моментах, с которыми мне пришлось столкнуться, и дам общую основу для построения вашего собственного классификатора. Проблема очень проста: взять обучающие данные, представленные абзацами текста, которые помечены как 1 или 0. Для большей предыстории я работал с корпоративными документами SEC,..

Настройка Stanford Parser и Stanford NER Tagger с NLTK в python в Windows и Linux
Я искал руководства по настройке Stanford Parser с NLTK в python для Windows, но потерпел неудачу, поэтому решил написать самостоятельно. Прежде всего, это руководство для людей, которые уже установили библиотеку NLTK. Если вы новичок в обработке естественного языка, я предлагаю вам немного глубже изучить NLP и Python или просто пакет NLTK. Конфигурация моей системы Python 2.7.12 НЛТК 3.2.1 Java 1.8.0_101 Как проверить? Для Python Откройте командную строку и введите..

Вопросы по теме 'nltk'

Кто-нибудь слышал, когда выйдет NLTK 3.0?
На веб-сайте http://www.nltk.org очень расплывчато указана середина 2011 года. Я хотел бы начать использовать NLTK, однако я довольно много поработал с Python 3.x, и я не хочу возвращаться назад в версии Python, чтобы использовать его. Просто...
4120 просмотров
schedule 30.11.2021

Как получить потоковые данные из твиттера, подключиться к pycurl с помощью nltk - регулярное выражение
Я новичок в Python, и мой босс дал задание: Получение потоковых данных из твиттера, соединение с pycurl и вывод в JSON Парсинг с использованием NLTK и регулярного выражения Сохраните его в файл базы данных (mySQL) или файловую базу (txt)...
786 просмотров
schedule 23.11.2021

Использование предварительно обученной модели MaltParser с NLTK
Может ли кто-нибудь сказать мне, как использовать предварительно обученную модель MaltParser (http://maltparser.org/mco/english_parser/engmalt.html) в nltk.parse.malt? Кажется, единственный вариант - тренироваться из файла (если бы кто-нибудь мог...
1825 просмотров
schedule 26.09.2021

Найдите синонимы для фраз из нескольких слов
Может ли библиотека Python NLTK предлагать / создавать синонимы для групп слов? Например; для слова / группы «основное блюдо» могу ли я использовать NLTK, чтобы получить синонимы «основное блюдо», «основное блюдо», «ужин» и т. д.? Вот мой...
3553 просмотров
schedule 06.10.2021

Реализация idf с помощью nltk
Учитывая предложение: «Быстрая коричневая лиса перепрыгнула через ленивую собаку», я хотел бы получить оценку того, насколько часто встречается каждое слово из корпуса nltk (какой корпус является наиболее общим / всеобъемлющим) РЕДАКТИРОВАТЬ:...
1711 просмотров
schedule 02.11.2021

Техника анализа настроений в Twitter
Я делаю проект по анализу настроений в твиттере, но есть некоторые вещи, над которыми я размышляю. Поскольку твиты очень короткие (менее 140 символов), какие методы анализа текста применимы лучше всего. Например. Работает ли стемминг так же...
2114 просмотров
schedule 08.10.2021

Оптимизация скрипта Python для извлечения и обработки больших файлов данных
Я новичок в python и наивно написал сценарий python для следующей задачи: Я хочу создать набор слов, представляющих несколько объектов. Каждый объект - это, по сути, пара, и должен быть составлен набор слов для синопсиса. Таким образом, объект...
1630 просмотров
schedule 26.10.2021

Как интегрировать NLTK с Hadoop HDFS?
У меня есть рабочая программа анализа настроений с использованием NLTK, которая считывает текст из файла .txt, размещенного на моем локальном компьютере. Теперь я хотел бы прочитать текстовый файл, помещенный в Hadoop HDFS, и выполнить такой же...
565 просмотров
schedule 27.09.2021

Как изменить метод сглаживания наивного байесовского классификатора в NLTK?
Я обучил классификатор спама, используя метод NLTK Naive Bayes. И набор для спама, и набор не для спама содержат в обучении 20 000 экземпляров слов. Я заметил, что при обнаружении неизвестных функций classifier дает 0.5 вероятность спама:...
1551 просмотров

NLTK Превращение поддерева в список при фрагментировании каналов python / RSS
Используя приведенный ниже код, я фрагментирую уже помеченный и токенизированный RSS-канал. "Print subtree.leaves ()" выводит: [('Prime', 'NNP'), ('министр', 'NNP'), ('Стивен', 'NNP'), ('Harper', 'NNP')] [('США', 'NNP' ), ('Президент', 'NNP'),...
1953 просмотров
schedule 02.10.2021

Как использовать метаданные в классификаторах NLTK
Насколько я могу понять примеры использования классификатора NLTK: http://nbviewer.ipython.org/github/carljv/Will_it_Python/blob/master/MLFH/CH3/ch3_nltk.ipynb http://www.nltk.org/book/ch06.html Интерфейс классификации NLTK с...
419 просмотров
schedule 06.11.2021

Прилагательные, употребляемые с именованными сущностями
Я использовал приведенный ниже код Python для извлечения именованных сущностей, присутствующих в тексте. Теперь мне нужно получить прилагательные из тех предложений в тексте, где есть именованный объект. то есть прилагательное, используемое с...
457 просмотров

Анализ зависимостей с использованием MaltParser и NLTK
Рассмотрим предложение new_sent = '''PeterParker loves MaryJane.''' Я пытаюсь разобрать это предложение, используя malparser и NLTK следующим образом: maltParser = nltk.parse.malt.MaltParser(working_dir="/Applications/maltparser-1.7.2",...
220 просмотров
schedule 20.10.2021

Обучение теггеру NLTK Brill, но с использованием текстового файла в качестве входных данных
Всем привет. Сейчас я делаю свой последний годовой проект под названием «Tagger Part-Of-Speech Tagger для малайского языка с использованием Brill Tagger». Я хочу спросить, как тренировать предложения с тегами, которые я сохранил в текстовом файле?...
2058 просмотров
schedule 23.11.2021

Как перечислить все формы слова с помощью NLTK в Python
Мне нужно перечислить все формы (глагол, существительное, сравнительная, превосходная, прилагательное и наречие) слова, используя библиотеку NLTK в Python. Например, если у меня есть слово «писать», результат должен быть следующим: написал писатель...
5461 просмотров
schedule 01.12.2021

деление с плавающей запятой на ноль ошибка, связанная с ngram и nltk
Моя задача - использовать 10-кратный метод перекрестной проверки с uni, bi и триграммами в корпусе и сравнить их точность. Однако я застрял с ошибкой деления с плавающей запятой. Все эти коды выдаются установщиком вопросов, за исключением цикла,...
740 просмотров
schedule 26.10.2021

Классификация одного предложения
У меня есть 4 разные категории, и у меня также есть около 3000 слов, которые относятся к каждой из этих категорий. Теперь, если приходит новое предложение, я могу разбить предложение на слова и получить больше слов, связанных с ним. Скажем, для...
517 просмотров

токенизатор предложений nltk, считайте новые строки границей предложения
Я использую PunkSentenceTokenizer nltk для разметки текста в набор предложений. Однако токенизатор, похоже, не рассматривает новый абзац или новые строки как новое предложение. >>> from nltk.tokenize.punkt import...
7198 просмотров
schedule 10.10.2021

Tagger для отдельных слов в NLTK
Существует ли средство тегирования, которое возвращало бы один тег для слова в любом контексте? Мое требование состоит в том, что мне нужно извлекать слова из неструктурированного текста, в предложениях которого нет структурированной грамматики....
997 просмотров
schedule 11.10.2021

Аналогичный метод из модуля nltk дает разные результаты на разных машинах. Почему?
Я провел несколько вводных классов по интеллектуальному анализу текста с помощью Python, и класс попробовал аналогичный метод с предоставленными практическими текстами. Некоторые студенты получили разные результаты для text1.similar (), чем другие....
2513 просмотров
schedule 17.11.2021