我正在处理通用抓取(WET
格式)中的文字,而且从我看到的内容中,还有很多破损的标点符号 - 很可能是因为从原始数据中删除了换行符。
例如,在This Massive Rally?The 52
中,问号和The
应以空格分隔。我尝试使用以下regexp(在Java中)修复此问题:
line.replaceAll("([.;:,!?)])([A-Z])", "$1 $2");
虽然它可以正确处理大多数情况,但它会在不应该使用的地方添加空格,例如: U.S.
变为U. S.
或www.HiringJobTweets.com
变为www. HiringJobTweets.com
。
有没有办法在避免不良副作用的同时解决问题?