有没有人有经验如何使用python确定文本的语言? 在python中是否有可用的模块?
我已经尝试过谷歌应用程序(http://ajax.googleapis.com/ajax/services/language/detect),它运行正常,但我不能长期使用它来加载大量文本文件。
答案 0 :(得分:3)
我从来没有试过这个,但看起来你可以用NLTK(自然语言Tookit)做到这一点。有关示例,请参阅此blog post。
以下问题的答案也可能相关:NLTK and language detection
答案 1 :(得分:0)
您可以将Language Detection API用作Python作为Web服务。它通过GET或POST接受文本,并为JSON输出提供分数。
答案 2 :(得分:0)
CLD3 neural network model有Python绑定(通过Cython),这是Chrome用于离线语言检测的功能。
pip install cld3
https://github.com/Elizafox/cld3
>>> cld3.get_language("This is a test")
LanguagePrediction(language='en', probability=0.9999980926513672, is_reliable=True, proportion=1.0)
>>> cld3.get_frequent_languages("This piece of text is in English. Този текст е на Български.", 5)
[LanguagePrediction(language='bg', probability=0.9173890948295593, is_reliable=True, proportion=0.5853658318519592), LanguagePrediction(language='en', probability=0.9999790191650391, is_reliable=True, proportion=0.4146341383457184)]