SMS文本规范化

时间:2011-11-14 09:07:23

标签: java sms nlp

我正在寻找一个好的库或一些在SMS文本规范化领域完成的项目。我找到了一些很好的研究项目,比如this一个。

我使用Java作为编程语言。

简而言之,概念是处理基于短信的文本,例如“ tel him 2 go home nw ”并将其转换为正常的英语文本“告诉他现在回家”。

2 个答案:

答案 0 :(得分:4)

为什么不从这样的网站下载字典:http://smsdictionary.co.uk/abbreviations并使用字符串替换?

答案 1 :(得分:3)

字典替换并没有削减它,因为它错过了翻译中的上下文。例如你把'2'翻译成'to','too'或'two'?

您可以自己获取语料库并训练统计模型,使用Moses(http://www.statmt.org/moses/)或Phrasal(http://nlp.stanford.edu/software/phrasal/)

作为斯坦福大学的作者(http://www-nlp.stanford.edu/sms/translate.php),我可以确信为这样的服务提供基于REST的API,但我不知道知道对它的需求......