Как создать модель gensim word2vec с использованием предварительно обученных векторов слов?

Я создал векторы слов, используя распределенный алгоритм word2vec. Теперь у меня есть слова и соответствующие им векторы. Как построить модель gensim word2vec, используя эти слова и векторы?


person Uma Maheswara Rao Pinninti    schedule 12.10.2017    source источник


Ответы (1)


Я не уверен, что вы создали модель word2vec с помощью gensim или некоторых других инструментов, но если вы правильно поняли свой вопрос, вы хотите просто загрузить модель word2vec с помощью gensim. Это делается следующим образом:

import gensim
w2v_file = codecs.open(WORD2VEC_PATH, encoding='utf-8')
model = gensim.models.KeyedVectors.load_word2vec_format(w2v_file, binary=True)  # or binary=False if the model is not compressed

Однако если вы хотите обучить модель word2vec с нуля (то есть из необработанного текста), используя только gensim, вот руководство по обучению модели word2vec с помощью gensim.

person sophros    schedule 12.10.2017
comment
Спасибо, это именно то, что я ищу. - person Uma Maheswara Rao Pinninti; 13.10.2017
comment
Не могли бы вы предоставить образец w2v_file или помочь мне создать этот формат? У меня есть слово и его векторы в строке, разделенные пробелами, а слова разделены линиями. Спасибо. @sophros - person Uma Maheswara Rao Pinninti; 13.10.2017
comment
Вы пробовали следующий подход? from gensim.models import word2vec model = word2vec.Word2Vec.load_word2vec_format('path/to/GoogleNews-vectors-negative300.bin', binary=False) Важной частью является binary=False. - person sophros; 13.10.2017
comment
Это действительно помогло мне, спасибо. Я тренировал свой корпус с помощью Microsoft multiverso. Теперь я могу использовать load_word2vec_format для создания моей модели. - person Uma Maheswara Rao Pinninti; 13.10.2017