Размер окна FastText

В настоящее время я работаю над неконтролируемым обучением fastText. Я хотел уточнить кое-что о контекстном окне, представленном в документации fastText.

В описании библиотеки fasttext для python https://github.com/facebookresearch/fastText/tree/master/python для обучения модели fastText есть разные аргументы, один из аргументов,

  • ws: размер контекстного окна

Мой входной файл содержит строки с 2-3 токенами.

Eg.,

  • Старший администратор базы данных
  • Старший программист DotNet
  • Администратор сети
  • Главный программист (мейнфрейм)

Размер окна по умолчанию 5. Здесь, в приведенном выше примере, у меня есть строки с числом токенов меньше, чем размер окна. Что произойдет, если размер окна больше длины документа?


person Raisa Alphonse M    schedule 14.07.2021    source источник


Ответы (1)


FastText (и связанные алгоритмы, такие как word2vec) будут просто использовать как можно большую часть контекстного окна.

Например, предположим, что размер окна равен 5, а входные токены:

['Senior', 'Database', 'Administrator']

При обучении с «центральным» словом 'Senior' алгоритм будет готов обрабатывать до 5 слов в любом направлении.

Но есть 0 слов, предшествующих 'Senior', и только 2 слова, следующих за 'Senior', поэтому только эти 2 следующих слова будут считаться соседними.

(Никакие «включаемые значения» не будут использоваться, как если бы они были пустыми соседями, и не будет происходить «просачивания» к соседним текстам.)

Два других связанных примечания, которые следует иметь в виду:

  • Этим алгоритмам действительно нужны соседние слова для любого обучения, поэтому любые тексты, содержащие всего одно слово, по сути, не работают. (Если есть слово, которое появляется только в одиночку, вы все еще можете увидеть вектор для него в конце обучения, но в реализациях, с которыми я знаком, это будет просто случайным образом инициализированный начальный вектор, полностью не обучены реальным примерам использования.)
  • Большинство реализаций будут имитировать взвешивание соседних слов, не *всегда используя именно ваш заявленный размер окна, а скорее, для каждого прохода по определенному целевому центральному слову, выбирая случайный размер окна , от 1 до выбранного вами размера окна. Таким образом, непосредственные соседи всегда являются частью обучения, в то время как более дальние слова чаще пропускаются.
person gojomo    schedule 14.07.2021
comment
Спасибо за поддержку. Действительно помогло мне продолжить работу над моей моделью. - person Raisa Alphonse M; 19.07.2021