我正在创建一个用于检测短文本语言的应用程序,平均值为< 100个字符并包含俚语(例如推文,用户查询,短信)。
我测试的所有库都适用于普通网页,但不适用于非常短的文本。到目前为止,提供最佳结果的库是Chrome的语言检测(CLD)库,我必须将其构建为共享库。
当文字由非常短的单词构成时,CLD失败。在查看了CLD的源代码之后,我发现它使用了4克,这可能是原因。
我现在想的提高准确性的方法是:
哪种数据集最适合此任务?我该如何改进这种方法?
到目前为止,我正在使用EUROPARL和维基百科的文章。我正在使用NLTK完成大部分工作。
答案 0 :(得分:6)
对于非常短的文本的语言检测是当前研究的主题,因此不能给出确定的答案。可以在Carter, Tsagkias and Weerkamp 2011中找到Twitter数据的算法。另见那里的参考文献。
答案 1 :(得分:5)
是的,这是一个研究课题,已经取得了一些进展。
例如,http://code.google.com/p/language-detection/的“语言检测”作者为短消息创建了新的配置文件。目前,它支持17种语言。
我将它与Bing语言检测器进行了比较,收集了大约500条推文,大部分是英语和西班牙语。准确度如下:
Bing = 71.97%
Language-Detection Tool with new profiles = 89.75%
有关详细信息,请查看他的博客: http://shuyo.wordpress.com/2011/11/28/language-detection-supported-17-language-profiles-for-short-messages/
答案 2 :(得分:-2)
也省略了药物的科学名称或名称等。您的方法对我来说似乎很好。我认为维基百科是创建字典的最佳选择,因为它包含标准语言。如果你没有时间,你也可以使用报纸。