Кодировка японского текста RMeCab (пользователь R)

Я извлек информацию на японском языке из Интернета, чтобы провести контент-анализ. Сейчас готовлю текстовые данные, начиная с создания матрицы термин-документ. Пакет, который я использую для очистки и анализа, называется «RMeCab». Мне сказали, что этот пакет требует, чтобы текстовые данные были в кодировке ANSI. Но мои данные в кодировке UTF-8, как и настройка RMeCab и глобальная настройка в самом R.

Нужно ли мне менять кодировку моих текстовых файлов, чтобы запустить RMeCab? В таком случае, как мне быстро преобразовать кодировку десятков тысяч отдельных текстовых файлов?

Я пробовал кодировать веб-сайты преобразования, которые дают мне какую-то тарабарщину в качестве вывода ANSI. Я не понимаю механизма ввода чего-то похожего на кучу вопросительных знаков в RMeCab. Если бы я успешно преобразовал кодировку в ANSI и мои текстовые данные выглядели бы как набор символов, смог бы RMeCab прочитать их как текст на японском языке?

IYP 25.10.2014 источник

comment

MeCab может быть скомпилирован либо для UTF8, либо для Shift-JIS (скорее всего, здесь имеется в виду ANSI, см. stackoverflow.com/a/8468126/500207 «ANSI — это терминология MS для любой устаревшей кодировки по умолчанию на этом компьютере», которая является CP932, также известной как SJIS для японской локали). Если ваш RMeCab настроен на UTF8, то я подозреваю, что под капотом будет использоваться скомпилированная UTF8 версия MeCab, и поэтому он отлично работает с текстовыми файлами UTF8. Если вам действительно нужно конвертировать кодировки, iconv утилита командной строки — это ваша швейцарская армейская бензопила кодировок. - Ahmed Fasih 08.11.2014

comment

Пожалуйста, сообщите нам вашу операционную систему. - Ahmed Fasih 08.11.2014

comment

На самом деле похоже, что iconv также является пакетом R: stackoverflow.com/a/7482255/500207 (опять же, требуется, только если ваш MeCab скомпилирован SJIS, что я могу перепроверить, как только узнаю вашу ОС) - Ahmed Fasih 08.11.2014

comment

Большое спасибо!!! Я преобразовал кодировку с помощью writeLines(). - IYP 19.11.2014

comment

Рад, что ты понял! Можете ли вы опубликовать это как ответ и принять его? Удачного НЛП! - Ahmed Fasih 26.12.2014

Кодировка японского текста RMeCab (пользователь R)

Вопросы по теме