我正在努力从twitter收集数据并对其进行处理,但我遇到的问题是:文字很脏,
示例:
String dirtyText="this*is#a*&very_dirty&String";
示例:
String dirtyText="All f dis happnd bcause u gave ur time, talent n passion.";
请我尽可能简单。
答案 0 :(得分:0)
这不是一个容易解决的问题。 All f dis happnd
可以清理"生成All *of* this happened
或All *if* this happened
。对于第一个示例,您只能用空格替换所有非字母字符。有关如何执行此操作,请参阅this question。
否则我认为你需要一个自然的语言处理器,或者至少需要一个拼写检查器。猜测推文应该是正确的英语是一个非常复杂的问题需要解决。请查看Jazzy以获取开源拼写检查程序。