在CommonCrawl Text

时间:2015-10-08 12:50:22

标签: regex nlp common-crawl

我正在处理通用抓取(WET格式)中的文字,而且从我看到的内容中,还有很多破损的标点符号 - 很可能是因为从原始数据中删除了换行符。

例如,在This Massive Rally?The 52中,问号和The应以空格分隔。我尝试使用以下regexp(在Java中)修复此问题:

line.replaceAll("([.;:,!?)])([A-Z])", "$1 $2");

虽然它可以正确处理大多数情况,但它会在不应该使用的地方添加空格,例如: U.S.变为U. S.www.HiringJobTweets.com变为www. HiringJobTweets.com

有没有办法在避免不良副作用的同时解决问题?

0 个答案:

没有答案