Я извлек информацию на японском языке из Интернета, чтобы провести контент-анализ. Сейчас готовлю текстовые данные, начиная с создания матрицы термин-документ. Пакет, который я использую для очистки и анализа, называется «RMeCab». Мне сказали, что этот пакет требует, чтобы текстовые данные были в кодировке ANSI. Но мои данные в кодировке UTF-8, как и настройка RMeCab и глобальная настройка в самом R.
Нужно ли мне менять кодировку моих текстовых файлов, чтобы запустить RMeCab? В таком случае, как мне быстро преобразовать кодировку десятков тысяч отдельных текстовых файлов?
Я пробовал кодировать веб-сайты преобразования, которые дают мне какую-то тарабарщину в качестве вывода ANSI. Я не понимаю механизма ввода чего-то похожего на кучу вопросительных знаков в RMeCab. Если бы я успешно преобразовал кодировку в ANSI и мои текстовые данные выглядели бы как набор символов, смог бы RMeCab прочитать их как текст на японском языке?
iconv
утилита командной строки — это ваша швейцарская армейская бензопила кодировок. - person Ahmed Fasih   schedule 08.11.2014iconv
также является пакетом R: stackoverflow.com/a/7482255/500207 (опять же, требуется, только если ваш MeCab скомпилирован SJIS, что я могу перепроверить, как только узнаю вашу ОС) - person Ahmed Fasih   schedule 08.11.2014