FastText — это библиотека для эффективного изучения представлений слов и классификации предложений (https://fasttext.cc/). Нас интересует часть представления слов. Представление Word2Vec делает представления слов отдельными представлениями для каждого слова, но не учитывает внутреннюю структуру слова, что важно для морфологически богатых языков, таких как турецкий и финский (как указано в разделе Обогащение векторов слов информацией о подсловах). бумага). Итак, Fasttext предлагает использовать символьные n-граммы в качестве альтернативы модели skip-gram, предложенной в статье Word2Vec.

Перед созданием подслов или группы символов n-грамм слова корректируются таким образом, что «‹» ставится в качестве префикса, а «›» — в качестве суффикса к слову. Таким образом представляются начальная и конечная точки слов, и слова отличаются от n-грамм. Например, where становится ‹where›, а набор триграмм становится следующим: {‹wh, whe, her, ere, re›}, а ее триграмма представляется отличной от ‹her› слова. Эти представления складываются для представления слова.

где g — символьная n-грамма, G_w — набор символьных n-грамм слова, v_c — результат одной итерации обучения, z_g — векторное представление символьной n-граммы.

Этот процесс суммирования обеспечивает скользящее окно по слову. Это делает n-граммы независимыми от слова, поэтому редкие слова могут быть лучше представлены путем суммирования n-грамм с меньшими символами.