Кодировка японского текста RMeCab (пользователь R)

Я извлек информацию на японском языке из Интернета, чтобы провести контент-анализ. Сейчас готовлю текстовые данные, начиная с создания матрицы термин-документ. Пакет, который я использую для очистки и анализа, называется «RMeCab». Мне сказали, что этот пакет требует, чтобы текстовые данные были в кодировке ANSI. Но мои данные в кодировке UTF-8, как и настройка RMeCab и глобальная настройка в самом R.

Нужно ли мне менять кодировку моих текстовых файлов, чтобы запустить RMeCab? В таком случае, как мне быстро преобразовать кодировку десятков тысяч отдельных текстовых файлов?

Я пробовал кодировать веб-сайты преобразования, которые дают мне какую-то тарабарщину в качестве вывода ANSI. Я не понимаю механизма ввода чего-то похожего на кучу вопросительных знаков в RMeCab. Если бы я успешно преобразовал кодировку в ANSI и мои текстовые данные выглядели бы как набор символов, смог бы RMeCab прочитать их как текст на японском языке?


person IYP    schedule 25.10.2014    source источник
comment
MeCab может быть скомпилирован либо для UTF8, либо для Shift-JIS (скорее всего, здесь имеется в виду ANSI, см. stackoverflow.com/a/8468126/500207 «ANSI — это терминология MS для любой устаревшей кодировки по умолчанию на этом компьютере», которая является CP932, также известной как SJIS для японской локали). Если ваш RMeCab настроен на UTF8, то я подозреваю, что под капотом будет использоваться скомпилированная UTF8 версия MeCab, и поэтому он отлично работает с текстовыми файлами UTF8. Если вам действительно нужно конвертировать кодировки, iconv утилита командной строки — это ваша швейцарская армейская бензопила кодировок.   -  person Ahmed Fasih    schedule 08.11.2014
comment
Пожалуйста, сообщите нам вашу операционную систему.   -  person Ahmed Fasih    schedule 08.11.2014
comment
На самом деле похоже, что iconv также является пакетом R: stackoverflow.com/a/7482255/500207 (опять же, требуется, только если ваш MeCab скомпилирован SJIS, что я могу перепроверить, как только узнаю вашу ОС)   -  person Ahmed Fasih    schedule 08.11.2014
comment
Большое спасибо!!! Я преобразовал кодировку с помощью writeLines().   -  person IYP    schedule 19.11.2014
comment
Рад, что ты понял! Можете ли вы опубликовать это как ответ и принять его? Удачного НЛП!   -  person Ahmed Fasih    schedule 26.12.2014