У меня есть проект интеллектуального анализа текста, и в ключевом тексте многие из них не на английском языке (строки), например. следует. Может ли кто-нибудь предложить решение, как автоматизировать процесс идентификации этих текстов, чтобы я мог их удалить?
Эти данные хранятся в MySQL db и csv, поэтому приветствуются любые предложения.
<†Û†ÛÛ†Û”†Û_†ä¢†ÛÀ†Û_ë_©”冾†£†™†Â†_†—ë__†Ü† †é†å´_•´_•_Èä†äé†Û_†Ûã†Û_†äê†_ë_ã†Âë_†_ë_Ć£†_†Ü†_†ã†™†—ä´_•´_ê_“_´_ê´_ê_ãdž¾†£†™† †ä_† ëÄå†_àà†ä–†_†Ü†_†_†ä–†_†ã†™†—ä†é†Â†_†Û†ÛÛ†Û”†Û_†ä¢†ÛÀ†Û_†_†ã†™†‘†—_ÈÂ_—_†â†Ûæ†Û_†Û_†Ûâ†Â†Ü†ÜëÙ_†â__ëæĆã†_†ää†ä_†_†_†ã†™†—ä_“Œë_–†À룆ä_†Û™†äê_ †_ëèÛ_Ćã†_†™†Â†_†È†‘†—ä†Ûæ†ä_†ä_†Û_†——†äé†Û_†——NY†äê_Àë_†å†äà†ä_†ä¢†È†ä ë___ç•_܆é†äé†Û_†Û—†Û_†_†ã†™†‘†—†ä_†äå†ä_†äè†Û_†Â___†ää__Ć—Ć_†__çã†äê__膣†_††ä‘†_†ã†™†ã†—†é†ä–†å†Ü†£†_†ää†_ä_†Àë__†è†‘†ä†ä_†äÙ†ÛdžÛ_†äÙ†Û_†__™”†ä_† ††—†Û_†ÛÛ†äà†ÛdžۆÛæ†Û_†ää†äÀ†Ûé†Û_†Û™†Û_†_†—†Û†Û_†ä_†ä±†Û_†ä_†À_ÈÂ_—_†ä_†ä_†Û™†Ûâ†ä_†Û_†éë•_†___—Ä_†åå—†£†_†Ü†™_Àë_†‘†äŒ†Û܆䌆ÛÜ_£™†_†_†Ü†_†ã†™†—äëã_Ž…†Â†_ë__†«†ä–†ää____ã†_ëÜé†ã† †£†™†_†È†—ä
<El lugar est’ bueno la comida tambi’©n los precios demasiado caros para este tipo de resto. Quiero rescatar la atenci’_n que fue muy buena.
ORDER BY text COLLATE utf8_bin in MySQL
, но все же я вижу много испанских слов. - person kevin   schedule 16.03.2014U+3CE2 U+80A0 U+C39B
приводит к㳢肠쎛
- person   schedule 16.03.2014intestinal
. В любом случае это могут быть медицинские данные? Читаемая часть ваших данных, похоже, тоже говорит о еде: P - person   schedule 16.03.2014