Статьи по теме doc2vec

Публикации по теме 'doc2vec'

Doc2vec простым способом

Сегодня я собираюсь продемонстрировать простую реализацию nlp и doc2vec. Идея состоит в том, чтобы обучить модель doc2vec с помощью gensim v2 и python2 из текстового документа. У меня было около 20 текстовых файлов для начала . Хотя корпус из 20 документов кажется небольшим, но преимущество в том, что обучение модели занимает около 2 минут. Приступим к реализации #Import all the dependencies import gensim from nltk import RegexpTokenizer from nltk.corpus import stopwords..

Еще один анализ настроений в Twitter с помощью Python - часть 7 (моделирование фраз + Doc2Vec)

Это седьмая часть моего текущего проекта анализа настроений в Твиттере. Вы можете найти предыдущие сообщения по ссылкам ниже. Часть 1: Очистка данных Часть 2: EDA, Визуализация данных Часть 3: Закон Ципфа, визуализация данных Часть 4: Извлечение признаков (векторизатор счетчика), N-грамм, матрица путаницы Часть 5: Извлечение признаков (векторизатор Tfidf), сравнение моделей машинного обучения, лексический подход Часть 6: Doc2Vec В предыдущем посте я реализовал..

Генерация текста с использованием двунаправленных моделей LSTM и Doc2Vec 2/3

Если вы попали прямо на эту страницу, предлагаю начать читать первую часть этой статьи . В нем описывается, как создать модель RNN для создания текста, слово за словом. Я закончил предыдущую часть, объяснив, что постараюсь улучшить генерацию предложений, путем обнаружения закономерностей в последовательностях предложений, а не только в последовательностях слов. Это могло бы быть улучшением, потому что при этом контекст абзаца (это описание сельской местности? Диалог между..

Еще один анализ настроений в Twitter с помощью Python - часть 6 (Doc2Vec)

Это 6-я часть моего текущего проекта анализа настроений в Твиттере. Вы можете найти предыдущие сообщения по ссылкам ниже. Часть 1: Очистка данных Часть 2: EDA, Визуализация данных Часть 3: Закон Ципфа, визуализация данных Часть 4: Извлечение признаков (векторизатор счетчика), N-грамм, матрица путаницы Часть 5: Извлечение признаков (векторизатор Tfidf), сравнение моделей машинного обучения, лексический подход * В дополнение к блокам коротких кодов, которые я приложу,..

Интуитивное введение в вектор документа (Doc2Vec)

Введение в Doc2Vec | Навстречу AI Интуитивное введение в вектор документа (Doc2Vec) Вступление Doc2Vec - это расширение Word2vec , которое кодирует документы целиком, а не отдельные слова. Вы можете прочитать о Word2Vec в моем предыдущем посте . Векторы Doc2Vec представляют тему или общее значение документа. В этом случае документ - это предложение, абзац, статья или эссе и т. Д. В Doc2Vec имя документа, такое как имя файла или идентификатор файла, будет входом,..

Вопросы по теме 'doc2vec'

python gensim извлекает исходные предложения из doc2vec taggedlinedocument

Я использую метод Gensim doc2vec для чтения в моем текстовом файле, который содержит по одному предложению в строке. Он считывает мой файл в словарь, где ключи представляют собой токенизированный список терминов, а значения - это номер предложения....

510 просмотров

07.11.2021

Проблемы с доступом к документам с помощью gensim

Я пытаюсь использовать gensim (версия 1.0.1) doc2vec , чтобы получить косинусное сходство документов. Это должно быть относительно просто, но у меня проблемы с получением вектора документов, поэтому я могу сделать косинусное сходство. Когда я...

456 просмотров

gensim doc2vec

10.10.2021

Gensim Doc2Vec Обучение

Я использую gensim для обучения модели Doc2Vec на документах, назначенных конкретным людям. Есть 10 миллионов документов и 8000 человек. Меня не волнуют все 8000 человек. Я забочусь о конкретной группе людей (скажем, от 1 до 500). Люди,...

1047 просмотров

python gensim doc2vec

09.10.2021

Размер абзаца Vector или Doc2vec

Я использую java-библиотеку deeplearning4j для создания векторной модели абзаца (doc2vec) размерности 100. Я использую текстовый файл. В нем около 17 миллионов строк, а размер файла - 330 МБ. Я могу обучить модель и вычислить вектор абзаца, что дает...

883 просмотров

nlp gensim word-embedding doc2vec deeplearning4j

02.12.2021

Как найти расстояние между Doctag и infer_vector с помощью Gensim Doc2Vec?

Используя Gensim's Doc2Vec, как мне найти расстояние между Doctag и infer_vector() ? Большое спасибо

532 просмотров

python gensim doc2vec

27.11.2021

Как импортировать документ с предложениями для обучения модели doc2vec?

Я хочу получить косинусное сходство между предложениями. Я протестировал doc2vec с помощью gensim и обучил его, используя всего несколько предложений, приведенных в коде. Но я хочу обучить свою модель с помощью текстового документа, в каждой строке...

233 просмотров

python gensim cosine-similarity sentence-similarity doc2vec

24.09.2021

Сходство документа запроса с doc2vec

Учитывая запрос и документ, я хотел бы вычислить оценку сходства с помощью Gensim doc2vec. Каждый документ состоит из нескольких полей (например, основной заголовок, автор, издатель и т. Д.) Для обучения лучше объединить поля документа и...

209 просмотров

machine-learning gensim word2vec doc2vec information-retrieval

10.10.2021

Как сохранить модель gensim doc2vec

после обучения модели я использую infer_vector () для успешного получения вектора. но после того, как я сохраню модель и снова загрузю, ошибка появляется следующим образом: print "infer:", model.infer_vector(sents[0]).tolist() File...

1437 просмотров

python gensim doc2vec

03.03.2022

Doc2Vec: различать приговор и документ

Я просто играю с Doc2Vec от gensim, анализирую дамп stackexchange для анализа семантического сходства вопросов для выявления дубликатов. Учебник по Doc2Vec-Tutorial , кажется, описывает ввод как предложения с тегами. Но в исходной статье:...

2038 просмотров

python gensim doc2vec

19.03.2022

Сходство с Doc2Vec

Я следую руководству Gensim для Doc2Vec: https://medium.com/@mishra.thedeepak/doc2vec-simple-implementation-example-df2afbbfbad5 . Теперь, когда я подошел к концу, я хотел бы вычислить оценки сходства для документов в обучающих данных. Эти векторы...

65 просмотров

python doc2vec

27.03.2022

Есть ли способ сохранить и загрузить словарь модели Gensim Doc2Vec

редактировать Корпус поезда - это фреймворк данных Spark, который я построил перед этим шагом. Я загрузил его из формата паркета и создал класс «Feed», который передал Gensim lib итератор в корпусе поезда: class Feed(): def...

1337 просмотров

python gensim pyspark doc2vec

09.04.2022

Извлечение признаков NLP

Я работаю над набором данных отзывов. Проблема состоит в том, чтобы извлечь важные (сколько раз одна и та же функция проверена) положительные и отрицательные черты этого конкретного продукта из обзоров. Ex: some xyz car положительно:...

217 просмотров

python machine-learning nlp doc2vec

27.04.2022

Doc2Vec: странные результаты с model.docvecs.most_similar

Я пытаюсь обучить модель, чтобы получить схожесть предложений (в моем случае названия какой-то организации) Я использую для обучения модели names_tok = [TaggedDocument(words=word_tokenize(name.lower()), tags=[str(i)])...

493 просмотров

python gensim doc2vec

01.05.2022

Doc2Vec: сходство между закодированными и невидимыми документами

У меня есть образец из ~ 60 000 документов. Мы вручную закодировали 700 из них как имеющие определенный тип контента. Теперь мы хотели бы найти «наиболее похожие» документы на 700, которые мы уже закодировали вручную. Мы используем gensim doc2vec,...

2249 просмотров

python nlp gensim word2vec doc2vec

28.05.2022

Как загрузить предварительно обученную модель в gensim и обучить с ней doc2vec?

У меня есть готовая к использованию модель word2vec, которую я уже обучил. Я сериализовал его как файл CSV: word, v0, v1, ..., vN house, 0.1234, 0.4567, ..., 0.3461 car, 0.456, 0.677, ..., 0.3461 Я хотел бы знать, как я могу...

2479 просмотров

python gensim word2vec doc2vec

21.06.2022

Загрузить Doc2Vec без векторов документов только для infer_vector

У меня есть большая модель gensim Doc2vec, мне нужно только вывести векторы, пока я загружаю векторы обучающих документов из другого источника. Можно ли загрузить его как есть без большого файла npy я сделал Изменить: from...

411 просмотров

gensim doc2vec

25.06.2022

Непонимание вывода Doc2Vec

Итак, я начал с попыток изучить Doc2Vec, в частности вывод косинусного сходства. По сути, я получаю неожиданный результат при попытке сопоставить новое предложение со списком предложений, на которых я обучал свою модель. Если бы кто-нибудь мог...

64 просмотров

python doc2vec

26.06.2022

Дает ли модель doc2vec точность для слов, не относящихся к словарю?

У меня есть предложения в корпусе со смешанными словами (словарные и несловарные слова). Слова, не относящиеся к словарю, так же важны, как и зависят от предметной области. Я не выполняю nlp для слов, не относящихся к словарю. Сравнивает ли модель...

36 просмотров

python gensim doc2vec

15.07.2022

word2vec, используя тело документа или ключевые слова в качестве обучающего корпуса

Я хотел бы обучить модель word2vec , используя неупорядоченный список ключевых слов и категорий для каждого документа. Поэтому мой словарный запас довольно мал - около 2,5 тыс. Токенов. Будет ли производительность улучшена, если на этапе обучения...

48 просмотров

machine-learning nlp gensim word2vec doc2vec

01.09.2022

Извлечение векторов из Doc2Vec

Я пытаюсь извлечь вектор документов для использования в регрессионной модели для прогнозирования. Я загрузил около 1 400 000 помеченных предложений в doc2vec для обучения, однако мне удалось получить только 10 векторов с помощью model.docvecs....

678 просмотров

gensim doc2vec

15.09.2022