mysql - 删除MySQL或CSV中的非英语值 - Thinbug

删除MySQL或CSV中的非英语值

时间：2014-03-16 00:02:42

标签： mysql regex non-english

我有一个文本挖掘项目，关键文本中有许多非英语（行），例如如下。任何人都可以提供如何自动识别这些文本的过程的解决方案，以便我可以删除它们吗？

这些数据存储在MySQL db和csv中，因此欢迎任何建议。

<†Û†ÛÛ†Û”†Û_†ä¢†ÛÀ†Û_ë_©”å†¾†£†™†Â†_†—ë__†Ü† †é†å´_•´_•_Èä†äé†Û_†Ûã†Û_†äê†_ë_ã†Âë_†_ë_Ä†£†_†Ü†_†ã†™†—ä´_•´_ê_“_´_ê´_ê_ãÇ†¾†£†™† †ä_† ëÄå†_àà†ä–†_†Ü†_†_†ä–†_†ã†™†—ä†é†Â†_†Û†ÛÛ†Û”†Û_†ä¢†ÛÀ†Û_†_†ã†™†‘†—_ÈÂ_—_†â†Ûæ†Û_†Û_†Ûâ†Â†Ü†ÜëÙ_†â__ëæÄ†ã†_†ää†ä_†_†_†ã†™†—ä_“Œë_–†Àë£†ä_†Û™†äê_ †_ëèÛ_Ä†ã†_†™†Â†_†È†‘†—ä†Ûæ†ä_†ä_†Û_†——†äé†Û_†——NY†äê_Àë_†å†äà†ä_†ä¢†È†ä ë___ç•_Ü†é†äé†Û_†Û—†Û_†_†ã†™†‘†—†ä_†äå†ä_†äè†Û_†Â___†ää__Ä†—Ä†_†__çã†äê__è†£†_††ä‘†_†ã†™†ã†—†é†ä–†å†Ü†£†_†ää†_ä_†Àë__†è†‘†ä†ä_†äÙ†ÛÇ†Û_†äÙ†Û_†__™”†ä_† ††—†Û_†ÛÛ†äà†ÛÇ†Û†Ûæ†Û_†ää†äÀ†Ûé†Û_†Û™†Û_†_†—†Û†Û_†ä_†ä±†Û_†ä_†À_ÈÂ_—_†ä_†ä_†Û™†Ûâ†ä_†Û_†éë•_†___—Ä_†åå—†£†_†Ü†™_Àë_†‘†äŒ†ÛÜ†äŒ†ÛÜ_£™†_†_†Ü†_†ã†™†—äëã_Ž…†Â†_ë__†«†ä–†ää____ã†_ëÜé†ã† †£†™†_†È†—ä
<El lugar est’ bueno  la comida tambi’©n  los precios demasiado caros para este tipo de resto. Quiero rescatar la atenci’_n que fue muy buena.

1 个答案:

答案 0 :(得分：1)

Unicode字符类

[\u007f-\uffff]

这将删除几乎所有非英语角色......

结果

这是我从你的文字中得到的结果：

<______ ___________________ _ _________________________ ________NY___ _________________________________ _____________________________________ _
<El lugar est bueno  la comida tambin  los precios demasiado caros para este tipo de resto. Quiero rescatar la atenci_n que fue muy buena.