Я пытаюсь прочитать один текстовый файл и создать матрицу документа термина, используя пакеты textmining. Я могу создать матрицу документа термина, где мне нужно добавить каждую строку за строкой. Проблема в том, что я хочу включить весь файл за раз. Что мне не хватает в следующем коде? Заранее спасибо за любое предложение?
import textmining
def term_document_matrix_roy_1():
'''-----------------------------------------'''
with open("data_set.txt") as f:
reading_file_line = f.readlines() #entire content, return list
print reading_file_line #list
reading_file_info = [item.rstrip('\n') for item in reading_file_line]
print reading_file_info
print reading_file_info [1] #list-1
print reading_file_info [2] #list-2
'''-----------------------------------------'''
tdm = textmining.TermDocumentMatrix()
#tdm.add_doc(reading_file_info) #Giving error because of readlines
tdm.add_doc(reading_file_info[0])
tdm.add_doc(reading_file_info[1])
tdm.add_doc(reading_file_info[2])
for row in tdm.rows(cutoff=1):
print row
Образцы текстовых файлов: "data_set.txt" содержат следующую информацию:
Давайте напишем код на Python
До сих пор в этой книге в основном обсуждался процесс поиска ad hoc.
Попутно мы изучим некоторые важные методы машинного обучения.
Вывод будет представлять собой матрицу документов терминов, в основном, сколько раз встречается одно конкретное слово. Выходное изображение: http://postimg.org/image/eidddlkld/