Удаление неанглийских значений в MySQL или CSV

У меня есть проект интеллектуального анализа текста, и в ключевом тексте многие из них не на английском языке (строки), например. следует. Может ли кто-нибудь предложить решение, как автоматизировать процесс идентификации этих текстов, чтобы я мог их удалить?

Эти данные хранятся в MySQL db и csv, поэтому приветствуются любые предложения.

<†Û†ÛÛ†Û”†Û_†ä¢†ÛÀ†Û_ë_©”冾†£†™†Â†_†—ë__†Ü† †é†å´_•´_•_Èä†äé†Û_†Ûã†Û_†äê†_ë_ã†Âë_†_ë_Ć£†_†Ü†_†ã†™†—ä´_•´_ê_“_´_ê´_ê_ãdž¾†£†™† †ä_† ëÄå†_àà†ä–†_†Ü†_†_†ä–†_†ã†™†—ä†é†Â†_†Û†ÛÛ†Û”†Û_†ä¢†ÛÀ†Û_†_†ã†™†‘†—_ÈÂ_—_†â†Ûæ†Û_†Û_†Ûâ†Â†Ü†ÜëÙ_†â__ëæĆã†_†ää†ä_†_†_†ã†™†—ä_“Œë_–†À룆ä_†Û™†äê_ †_ëèÛ_Ćã†_†™†Â†_†È†‘†—ä†Ûæ†ä_†ä_†Û_†——†äé†Û_†——NY†äê_Àë_†å†äà†ä_†ä¢†È†ä ë___ç•_܆é†äé†Û_†Û—†Û_†_†ã†™†‘†—†ä_†äå†ä_†äè†Û_†Â___†ää__Ć—Ć_†__çã†äê__膣†_††ä‘†_†ã†™†ã†—†é†ä–†å†Ü†£†_†ää†_ä_†Àë__†è†‘†ä†ä_†äÙ†ÛdžÛ_†äÙ†Û_†__™”†ä_† ††—†Û_†ÛÛ†äà†ÛdžۆÛæ†Û_†ää†äÀ†Ûé†Û_†Û™†Û_†_†—†Û†Û_†ä_†ä±†Û_†ä_†À_ÈÂ_—_†ä_†ä_†Û™†Ûâ†ä_†Û_†éë•_†___—Ä_†åå—†£†_†Ü†™_Àë_†‘†äŒ†Û܆䌆ÛÜ_£™†_†_†Ü†_†ã†™†—äëã_Ž…†Â†_ë__†«†ä–†ää____ã†_ëÜé†ã† †£†™†_†È†—ä
<El lugar est’ bueno  la comida tambi’©n  los precios demasiado caros para este tipo de resto. Quiero rescatar la atenci’_n que fue muy buena.

person kevin    schedule 16.03.2014    source источник
comment
При получении таких данных вы должны читать их как HEX или BINARY. Решение этих проблем при кодировании символов сломает ваш мозг.   -  person    schedule 16.03.2014
comment
Я не уверен, но это могут быть китайские символы в UTF-16.   -  person Casimir et Hippolyte    schedule 16.03.2014
comment
В некоторых ответах на этой странице есть несколько предложений, которые вы можете попробовать. Хотя общее мнение таково, что это плохая идея. Лучше всего мне показалось сбросить таблицу, выполнить поиск/замену строки, а затем импортировать ее обратно. -regular-expression-replace-in-mysql">Статья о переполнении стека   -  person Quixrick    schedule 16.03.2014
comment
Я не знаю, кто отрицает этот вопрос (и, вероятно, голосует за его закрытие, OMG), но это глупо. Есть ли значок за оскорбительную речь?   -  person Casimir et Hippolyte    schedule 16.03.2014
comment
@Quixrick спасибо, но похоже, что это не решает. Я видел, что это может быть полезно: ORDER BY text COLLATE utf8_bin in MySQL, но все же я вижу много испанских слов.   -  person kevin    schedule 16.03.2014
comment
@CasimiretHippolyte, спасибо. Я не уверен, я пытаюсь идентифицировать этот текст, чтобы удалить его.   -  person kevin    schedule 16.03.2014
comment
@Аллендар, спасибо. Я думаю так. Сейчас ищу какие-то средства. Я уверен, что некоторые из вас сталкивались с этим раньше?   -  person kevin    schedule 16.03.2014
comment
Для нас будет лучше всего получить дамп вашего CSV в формате HEX. Есть множество HEX-редакторов, которые можно найти в Интернете бесплатно. Если вы откроете CSV таким образом и сможете разместить скриншот и/или скопировать и вставить значение в вопросе, это очень поможет. Текст, который вы вставили сюда, трудно выделить, так как он уже претерпел изменения в кодировке. Это может быть даже UTF-32.   -  person    schedule 16.03.2014
comment
Преобразовывая ваши опубликованные символы в формате UTF-8 в UTF-16, я получаю непереводимый (по крайней мере, для меня) хангыль (корейский): U+3CE2 U+80A0 U+C39B приводит к 㳢肠쎛   -  person    schedule 16.03.2014
comment
Второй иероглиф на китайском означает intestinal. В любом случае это могут быть медицинские данные? Читаемая часть ваших данных, похоже, тоже говорит о еде: P   -  person    schedule 16.03.2014
comment
@Allendar, не только эти нечитаемые слова, но и эти: I soliti 8 sabato 26 ottobre abbiamo provato da Gaetano e devo dire che subito siamo stati piacevolmente colpiti dalla gentilezza e cortesia di Gaetano ma ad onor del vero tutto il personale è stato gentilissimo ; ottima pizza cotta sapientemente e dall'impasto delicato e digeribilisimo si sentivano i   -  person kevin    schedule 17.03.2014
comment
@Allendar, ха-ха, не медицинские данные, а отзывы о ресторане. Кишечник тоже можно приготовить в качестве еды....   -  person kevin    schedule 17.03.2014


Ответы (1)


Класс символов Юникода

[\u007f-\uffff]

Это удалит почти все неанглийские символы...


Результат

Вот что я получаю из вашего текста:

<______ ___________________ _ _________________________ ________NY___ _________________________________ _____________________________________ _
<El lugar est bueno  la comida tambin  los precios demasiado caros para este tipo de resto. Quiero rescatar la atenci_n que fue muy buena.
person Vasili Syrakis    schedule 18.03.2014