Публикации по теме 'doc2vec'


Doc2vec простым способом
Сегодня я собираюсь продемонстрировать простую реализацию nlp и doc2vec. Идея состоит в том, чтобы обучить модель doc2vec с помощью gensim v2 и python2 из текстового документа. У меня было около 20 текстовых файлов для начала . Хотя корпус из 20 документов кажется небольшим, но преимущество в том, что обучение модели занимает около 2 минут. Приступим к реализации #Import all the dependencies import gensim from nltk import RegexpTokenizer from nltk.corpus import stopwords..

Еще один анализ настроений в Twitter с помощью Python - часть 7 (моделирование фраз + Doc2Vec)
Это седьмая часть моего текущего проекта анализа настроений в Твиттере. Вы можете найти предыдущие сообщения по ссылкам ниже. Часть 1: Очистка данных Часть 2: EDA, Визуализация данных Часть 3: Закон Ципфа, визуализация данных Часть 4: Извлечение признаков (векторизатор счетчика), N-грамм, матрица путаницы Часть 5: Извлечение признаков (векторизатор Tfidf), сравнение моделей машинного обучения, лексический подход Часть 6: Doc2Vec В предыдущем посте я реализовал..

Генерация текста с использованием двунаправленных моделей LSTM и Doc2Vec 2/3
Если вы попали прямо на эту страницу, предлагаю начать читать первую часть этой статьи . В нем описывается, как создать модель RNN для создания текста, слово за словом. Я закончил предыдущую часть, объяснив, что постараюсь улучшить генерацию предложений, путем обнаружения закономерностей в последовательностях предложений, а не только в последовательностях слов. Это могло бы быть улучшением, потому что при этом контекст абзаца (это описание сельской местности? Диалог между..

Еще один анализ настроений в Twitter с помощью Python - часть 6 (Doc2Vec)
Это 6-я часть моего текущего проекта анализа настроений в Твиттере. Вы можете найти предыдущие сообщения по ссылкам ниже. Часть 1: Очистка данных Часть 2: EDA, Визуализация данных Часть 3: Закон Ципфа, визуализация данных Часть 4: Извлечение признаков (векторизатор счетчика), N-грамм, матрица путаницы Часть 5: Извлечение признаков (векторизатор Tfidf), сравнение моделей машинного обучения, лексический подход * В дополнение к блокам коротких кодов, которые я приложу,..

Интуитивное введение в вектор документа (Doc2Vec)
Введение в Doc2Vec | Навстречу AI Интуитивное введение в вектор документа (Doc2Vec) Вступление Doc2Vec - это расширение Word2vec , которое кодирует документы целиком, а не отдельные слова. Вы можете прочитать о Word2Vec в моем предыдущем посте . Векторы Doc2Vec представляют тему или общее значение документа. В этом случае документ - это предложение, абзац, статья или эссе и т. Д. В Doc2Vec имя документа, такое как имя файла или идентификатор файла, будет входом,..

Вопросы по теме 'doc2vec'

python gensim извлекает исходные предложения из doc2vec taggedlinedocument
Я использую метод Gensim doc2vec для чтения в моем текстовом файле, который содержит по одному предложению в строке. Он считывает мой файл в словарь, где ключи представляют собой токенизированный список терминов, а значения - это номер предложения....
510 просмотров
schedule 07.11.2021

Проблемы с доступом к документам с помощью gensim
Я пытаюсь использовать gensim (версия 1.0.1) doc2vec , чтобы получить косинусное сходство документов. Это должно быть относительно просто, но у меня проблемы с получением вектора документов, поэтому я могу сделать косинусное сходство. Когда я...
456 просмотров
schedule 10.10.2021

Gensim Doc2Vec Обучение
Я использую gensim для обучения модели Doc2Vec на документах, назначенных конкретным людям. Есть 10 миллионов документов и 8000 человек. Меня не волнуют все 8000 человек. Я забочусь о конкретной группе людей (скажем, от 1 до 500). Люди,...
1047 просмотров
schedule 09.10.2021

Размер абзаца Vector или Doc2vec
Я использую java-библиотеку deeplearning4j для создания векторной модели абзаца (doc2vec) размерности 100. Я использую текстовый файл. В нем около 17 миллионов строк, а размер файла - 330 МБ. Я могу обучить модель и вычислить вектор абзаца, что дает...
883 просмотров

Как найти расстояние между Doctag и infer_vector с помощью Gensim Doc2Vec?
Используя Gensim's Doc2Vec, как мне найти расстояние между Doctag и infer_vector() ? Большое спасибо
532 просмотров
schedule 27.11.2021

Как импортировать документ с предложениями для обучения модели doc2vec?
Я хочу получить косинусное сходство между предложениями. Я протестировал doc2vec с помощью gensim и обучил его, используя всего несколько предложений, приведенных в коде. Но я хочу обучить свою модель с помощью текстового документа, в каждой строке...
233 просмотров

Сходство документа запроса с doc2vec
Учитывая запрос и документ, я хотел бы вычислить оценку сходства с помощью Gensim doc2vec. Каждый документ состоит из нескольких полей (например, основной заголовок, автор, издатель и т. Д.) Для обучения лучше объединить поля документа и...
209 просмотров

Как сохранить модель gensim doc2vec
после обучения модели я использую infer_vector () для успешного получения вектора. но после того, как я сохраню модель и снова загрузю, ошибка появляется следующим образом: print "infer:", model.infer_vector(sents[0]).tolist() File...
1437 просмотров
schedule 03.03.2022

Doc2Vec: различать приговор и документ
Я просто играю с Doc2Vec от gensim, анализирую дамп stackexchange для анализа семантического сходства вопросов для выявления дубликатов. Учебник по Doc2Vec-Tutorial , кажется, описывает ввод как предложения с тегами. Но в исходной статье:...
2038 просмотров
schedule 19.03.2022

Сходство с Doc2Vec
Я следую руководству Gensim для Doc2Vec: https://medium.com/@mishra.thedeepak/doc2vec-simple-implementation-example-df2afbbfbad5 . Теперь, когда я подошел к концу, я хотел бы вычислить оценки сходства для документов в обучающих данных. Эти векторы...
65 просмотров
schedule 27.03.2022

Есть ли способ сохранить и загрузить словарь модели Gensim Doc2Vec
редактировать Корпус поезда - это фреймворк данных Spark, который я построил перед этим шагом. Я загрузил его из формата паркета и создал класс «Feed», который передал Gensim lib итератор в корпусе поезда: class Feed(): def...
1337 просмотров
schedule 09.04.2022

Извлечение признаков NLP
Я работаю над набором данных отзывов. Проблема состоит в том, чтобы извлечь важные (сколько раз одна и та же функция проверена) положительные и отрицательные черты этого конкретного продукта из обзоров. Ex: some xyz car положительно:...
217 просмотров
schedule 27.04.2022

Doc2Vec: странные результаты с model.docvecs.most_similar
Я пытаюсь обучить модель, чтобы получить схожесть предложений (в моем случае названия какой-то организации) Я использую для обучения модели names_tok = [TaggedDocument(words=word_tokenize(name.lower()), tags=[str(i)])...
493 просмотров
schedule 01.05.2022

Doc2Vec: сходство между закодированными и невидимыми документами
У меня есть образец из ~ 60 000 документов. Мы вручную закодировали 700 из них как имеющие определенный тип контента. Теперь мы хотели бы найти «наиболее похожие» документы на 700, которые мы уже закодировали вручную. Мы используем gensim doc2vec,...
2249 просмотров
schedule 28.05.2022

Как загрузить предварительно обученную модель в gensim и обучить с ней doc2vec?
У меня есть готовая к использованию модель word2vec, которую я уже обучил. Я сериализовал его как файл CSV: word, v0, v1, ..., vN house, 0.1234, 0.4567, ..., 0.3461 car, 0.456, 0.677, ..., 0.3461 Я хотел бы знать, как я могу...
2479 просмотров
schedule 21.06.2022

Загрузить Doc2Vec без векторов документов только для infer_vector
У меня есть большая модель gensim Doc2vec, мне нужно только вывести векторы, пока я загружаю векторы обучающих документов из другого источника. Можно ли загрузить его как есть без большого файла npy я сделал Изменить: from...
411 просмотров
schedule 25.06.2022

Непонимание вывода Doc2Vec
Итак, я начал с попыток изучить Doc2Vec, в частности вывод косинусного сходства. По сути, я получаю неожиданный результат при попытке сопоставить новое предложение со списком предложений, на которых я обучал свою модель. Если бы кто-нибудь мог...
64 просмотров
schedule 26.06.2022

Дает ли модель doc2vec точность для слов, не относящихся к словарю?
У меня есть предложения в корпусе со смешанными словами (словарные и несловарные слова). Слова, не относящиеся к словарю, так же важны, как и зависят от предметной области. Я не выполняю nlp для слов, не относящихся к словарю. Сравнивает ли модель...
36 просмотров
schedule 15.07.2022

word2vec, используя тело документа или ключевые слова в качестве обучающего корпуса
Я хотел бы обучить модель word2vec , используя неупорядоченный список ключевых слов и категорий для каждого документа. Поэтому мой словарный запас довольно мал - около 2,5 тыс. Токенов. Будет ли производительность улучшена, если на этапе обучения...
48 просмотров

Извлечение векторов из Doc2Vec
Я пытаюсь извлечь вектор документов для использования в регрессионной модели для прогнозирования. Я загрузил около 1 400 000 помеченных предложений в doc2vec для обучения, однако мне удалось получить только 10 векторов с помощью model.docvecs....
678 просмотров
schedule 15.09.2022