Мне нужна помощь в добавлении дополнительных слов в существующую модель BERT. У меня есть два вопроса, которые помогут мне:
Я работаю над задачей NER для домена:
Есть несколько слов (не уверен в точных числах), которые BERT распознал как [UNK], но эти сущности необходимы для распознавания модели. Предварительно обученная модель хорошо обучается (до 80%) точности на базе bert-base-cased, предоставляя помеченные данные и тонко настраивая модель, но интуитивно модель будет учиться лучше, если она распознает все объекты.
Нужно ли мне добавить эти неизвестные сущности в файл vocabs.txt и снова обучить модель?
Нужно ли мне обучать модель BERT на моих данных из Scratch?
Спасибо...