Я пытаюсь векторизовать свои текстовые данные, используя пакет R tm.
Сейчас мой корпус данных имеет следующий вид:
1. The sports team practiced today
2. The soccer team went took the day off
тогда данные будут векторизованы в:
<the, sports, team, practiced, today, soccer, went, took, off>
1. <1, 1, 1, 1, 1, 0, 0, 0, 0>
2. <1, 0, 1, 0, 0, 1, 1, 1, 1>
Я бы предпочел использовать группу пользовательских фраз для своего вектора, например:
<sports team, soccer team, practiced today, day off>
1. <1, 0, 1, 0>
2. <0, 1, 0, 1>
Есть ли пакет или функция в R, которая сделает это? Или есть другие ресурсы с открытым исходным кодом, которые имеют аналогичную функциональность? Спасибо.