R Проблемы с кодировкой LSA LSAFUN

Я хотел бы использовать функцию genericSummary из пакета LSAfun. Вот пример текста на немецком.

library("LSAfun")
text = " Gegen die Firma wurde während der letzten Woche ein Zwangsvollstreckungsverfahren eingeleitet. Darüber witzeln die Konkurrenten."

Кодировка моих текстов "UTF-8". На самом деле, кодировка этого образца текста "latin1". Поэтому я перешел на utf8

text = enc2utf8(text)

Когда я звоню

genericSummary(text, k=2)

Я получаю следующую ошибку:

Error in FUN(X[[i]], ...) : 
  [lsa] - could not open file C:\Users\MA\AppData\Local\Temp\RtmpcRnDPw\file16c81a35d06/sentence1.txt due to encoding problems of the file.

Кто-нибудь знает, как это решить?


person WinterMensch    schedule 02.11.2017    source источник


Ответы (1)


была такая же проблема. Кажется, что причиной здесь являются специальные символы, такие как «ü» и «ä». Заменив их на «ue» и «ae», кодирование будет работать.

попробуйте это: genericSummary (текст, k = 2, язык = "немецкий", разбивка = T)

опция разбивки сделает свое дело, см. также R-помощь по этой функции.

С уважением, Михаил.

person Michael    schedule 26.02.2018