Удаление неанглийских значений в MySQL или CSV

У меня есть проект интеллектуального анализа текста, и в ключевом тексте многие из них не на английском языке (строки), например. следует. Может ли кто-нибудь предложить решение, как автоматизировать процесс идентификации этих текстов, чтобы я мог их удалить?

Эти данные хранятся в MySQL db и csv, поэтому приветствуются любые предложения.

<†Û†ÛÛ†Û”†Û_†ä¢†ÛÀ†Û_ë_©”å†¾†£†™†Â†_†—ë__†Ü† †é†å´_•´_•_Èä†äé†Û_†Ûã†Û_†äê†_ë_ã†Âë_†_ë_Ä†£†_†Ü†_†ã†™†—ä´_•´_ê_“_´_ê´_ê_ãÇ†¾†£†™† †ä_† ëÄå†_àà†ä–†_†Ü†_†_†ä–†_†ã†™†—ä†é†Â†_†Û†ÛÛ†Û”†Û_†ä¢†ÛÀ†Û_†_†ã†™†‘†—_ÈÂ_—_†â†Ûæ†Û_†Û_†Ûâ†Â†Ü†ÜëÙ_†â__ëæÄ†ã†_†ää†ä_†_†_†ã†™†—ä_“Œë_–†Àë£†ä_†Û™†äê_ †_ëèÛ_Ä†ã†_†™†Â†_†È†‘†—ä†Ûæ†ä_†ä_†Û_†——†äé†Û_†——NY†äê_Àë_†å†äà†ä_†ä¢†È†ä ë___ç•_Ü†é†äé†Û_†Û—†Û_†_†ã†™†‘†—†ä_†äå†ä_†äè†Û_†Â___†ää__Ä†—Ä†_†__çã†äê__è†£†_††ä‘†_†ã†™†ã†—†é†ä–†å†Ü†£†_†ää†_ä_†Àë__†è†‘†ä†ä_†äÙ†ÛÇ†Û_†äÙ†Û_†__™”†ä_† ††—†Û_†ÛÛ†äà†ÛÇ†Û†Ûæ†Û_†ää†äÀ†Ûé†Û_†Û™†Û_†_†—†Û†Û_†ä_†ä±†Û_†ä_†À_ÈÂ_—_†ä_†ä_†Û™†Ûâ†ä_†Û_†éë•_†___—Ä_†åå—†£†_†Ü†™_Àë_†‘†äŒ†ÛÜ†äŒ†ÛÜ_£™†_†_†Ü†_†ã†™†—äëã_Ž…†Â†_ë__†«†ä–†ää____ã†_ëÜé†ã† †£†™†_†È†—ä
<El lugar est’ bueno  la comida tambi’©n  los precios demasiado caros para este tipo de resto. Quiero rescatar la atenci’_n que fue muy buena.

mysql regex non-english

kevin 16.03.2014 источник

comment

При получении таких данных вы должны читать их как HEX или BINARY. Решение этих проблем при кодировании символов сломает ваш мозг. - 16.03.2014

comment

Я не уверен, но это могут быть китайские символы в UTF-16. - Casimir et Hippolyte 16.03.2014

comment

В некоторых ответах на этой странице есть несколько предложений, которые вы можете попробовать. Хотя общее мнение таково, что это плохая идея. Лучше всего мне показалось сбросить таблицу, выполнить поиск/замену строки, а затем импортировать ее обратно. -regular-expression-replace-in-mysql">Статья о переполнении стека - Quixrick 16.03.2014

comment

Я не знаю, кто отрицает этот вопрос (и, вероятно, голосует за его закрытие, OMG), но это глупо. Есть ли значок за оскорбительную речь? - Casimir et Hippolyte 16.03.2014

comment

@Quixrick спасибо, но похоже, что это не решает. Я видел, что это может быть полезно: ORDER BY text COLLATE utf8_bin in MySQL, но все же я вижу много испанских слов. - kevin 16.03.2014

comment

@CasimiretHippolyte, спасибо. Я не уверен, я пытаюсь идентифицировать этот текст, чтобы удалить его. - kevin 16.03.2014

comment

@Аллендар, спасибо. Я думаю так. Сейчас ищу какие-то средства. Я уверен, что некоторые из вас сталкивались с этим раньше? - kevin 16.03.2014

comment

Для нас будет лучше всего получить дамп вашего CSV в формате HEX. Есть множество HEX-редакторов, которые можно найти в Интернете бесплатно. Если вы откроете CSV таким образом и сможете разместить скриншот и/или скопировать и вставить значение в вопросе, это очень поможет. Текст, который вы вставили сюда, трудно выделить, так как он уже претерпел изменения в кодировке. Это может быть даже UTF-32. - 16.03.2014

comment

Преобразовывая ваши опубликованные символы в формате UTF-8 в UTF-16, я получаю непереводимый (по крайней мере, для меня) хангыль (корейский): U+3CE2 U+80A0 U+C39B приводит к 㳢肠쎛 - 16.03.2014

comment

Второй иероглиф на китайском означает intestinal. В любом случае это могут быть медицинские данные? Читаемая часть ваших данных, похоже, тоже говорит о еде: P - 16.03.2014

comment

@Allendar, не только эти нечитаемые слова, но и эти: I soliti 8 sabato 26 ottobre abbiamo provato da Gaetano e devo dire che subito siamo stati piacevolmente colpiti dalla gentilezza e cortesia di Gaetano ma ad onor del vero tutto il personale Ã¨ stato gentilissimo ; ottima pizza cotta sapientemente e dall'impasto delicato e digeribilisimo si sentivano i - kevin 17.03.2014

comment

@Allendar, ха-ха, не медицинские данные, а отзывы о ресторане. Кишечник тоже можно приготовить в качестве еды.... - kevin 17.03.2014

Ответы (1)

arrow_upward
1
arrow_downward

Класс символов Юникода

[\u007f-\uffff]

Это удалит почти все неанглийские символы...

Результат

Вот что я получаю из вашего текста:

<______ ___________________ _ _________________________ ________NY___ _________________________________ _____________________________________ _
<El lugar est bueno  la comida tambin  los precios demasiado caros para este tipo de resto. Quiero rescatar la atenci_n que fue muy buena.

Vasili Syrakis 18.03.2014

Удаление неанглийских значений в MySQL или CSV

Ответы (1)

Класс символов Юникода

Результат

Вопросы по теме