Я создал векторы слов, используя распределенный алгоритм word2vec. Теперь у меня есть слова и соответствующие им векторы. Как построить модель gensim word2vec, используя эти слова и векторы?
Как создать модель gensim word2vec с использованием предварительно обученных векторов слов?
Ответы (1)
Я не уверен, что вы создали модель word2vec с помощью gensim
или некоторых других инструментов, но если вы правильно поняли свой вопрос, вы хотите просто загрузить модель word2vec с помощью gensim. Это делается следующим образом:
import gensim
w2v_file = codecs.open(WORD2VEC_PATH, encoding='utf-8')
model = gensim.models.KeyedVectors.load_word2vec_format(w2v_file, binary=True) # or binary=False if the model is not compressed
Однако если вы хотите обучить модель word2vec с нуля (то есть из необработанного текста), используя только gensim
, вот руководство по обучению модели word2vec с помощью gensim.
person
sophros
schedule
12.10.2017
Спасибо, это именно то, что я ищу.
- person Uma Maheswara Rao Pinninti; 13.10.2017
Не могли бы вы предоставить образец w2v_file или помочь мне создать этот формат? У меня есть слово и его векторы в строке, разделенные пробелами, а слова разделены линиями. Спасибо. @sophros
- person Uma Maheswara Rao Pinninti; 13.10.2017
Вы пробовали следующий подход?
from gensim.models import word2vec model = word2vec.Word2Vec.load_word2vec_format('path/to/GoogleNews-vectors-negative300.bin', binary=False)
Важной частью является binary=False
.
- person sophros; 13.10.2017
Это действительно помогло мне, спасибо. Я тренировал свой корпус с помощью Microsoft multiverso. Теперь я могу использовать load_word2vec_format для создания моей модели.
- person Uma Maheswara Rao Pinninti; 13.10.2017