Я хочу настроить этот код, чтобы я мог назначить каждому из этих модальных глаголов различный вес. Идея состоит в том, чтобы использовать что-то похожее на библиотеку NRC, где у нас есть «числа» 1-5, представляющие категории, а не числа.
modals<-data_frame(word=c("must", "will", "shall", "should", "may", "can"),
modal=c("5", "4", "4", "3", "2", "1"))
Моя проблема в том, что когда я запускаю следующий код, у меня 5 "может" считаться такими же, как один "должен". Я хочу, чтобы каждое слово имело разный вес, чтобы при выполнении этого анализа я мог видеть концентрацию использования более сильного «должен» по сравнению с более слабым «можно». * где "tidy.DF" - мой корпус, а "school" и "target" - имена столбцов.
MODAL<-tidy.DF %>%
inner_join(modals) %>%
count(School, Target, modal, index=wordnumber %/% 50, modal) %>%
spread(modal, n, fill=0)
ggplot(MODAL, aes(index, 5, fill=Target)) +
geom_col(show.legend=FALSE) +
facet_wrap(~Target, ncol=2, scales="free_x")