如何使用java清理脏文本

时间:2015-04-02 16:15:03

标签: java twitter text filtering dirty-data

我正在努力从twitter收集数据并对其进行处理,但我遇到的问题是:文字很脏,

示例:

String dirtyText="this*is#a*&very_dirty&String";

示例:

String dirtyText="All f dis happnd bcause u gave ur time, talent n passion.";

请我尽可能简单。

1 个答案:

答案 0 :(得分:0)

这不是一个容易解决的问题。 All f dis happnd可以清理"生成All *of* this happenedAll *if* this happened。对于第一个示例,您只能用空格替换所有非字母字符。有关如何执行此操作,请参阅this question

否则我认为你需要一个自然的语言处理器,或者至少需要一个拼写检查器。猜测推文应该是正确的英语是一个非常复杂的问题需要解决。请查看Jazzy以获取开源拼写检查程序。