用于语言检测推文的快速Java库?

时间:2012-03-24 20:04:30

标签: java twitter translation language-detection

根据这个错误,推特的搜索API在语言方面已经被打破了至少2年:http://bit.ly/GQ244g所以他们似乎不太可能会修复它。

我查看了其他语言检测线程中提到的库,它们看起来都很棒,并且提供95%以上的准确率。问题是,哪一个用于推文?

我怀疑Tweets可能具有挑战性,因为它们由语言和主题标签组成,通常是英语。此外,我主要关注的是性能。如果我能更快地执行过滤,我不介意丢失一些推文。

所以我的问题是那些在推文上做过语言检测的人:你使用了什么库,你观察到了什么性能?

4 个答案:

答案 0 :(得分:2)

你试过language-detection吗?它声称53种语言的精度达到99%。然而,鉴于推文通常很短,我担心你可以梦想到如此高的精度...你应该尝试用推特训练数据和可能的语言子集生成自己的语言配置文件(你需要对此进行一些研究)。我对表演并不了解,如果你能自己编写测试可能会更好。

编辑: 看看这个Python项目,你可能想尝试与你的java代码库进行一些集成:https://github.com/shuyo/ldig

答案 1 :(得分:2)

看看Apache Tika。 除了语言检测之外,还可以用于其他一些事情:

http://tika.apache.org/1.5/detection.html#Language_Detection

答案 2 :(得分:1)

您可以使用Microsoft的Java翻译Web服务。 https://datamarket.azure.com/dataset/1899a118-d202-492c-aa16-ba21c33c06cb(每月免费获得2000,000字,并提供语言检测)

答案 3 :(得分:1)

您应该使用JLangDetect。我不能推荐除此之外的任何东西。