如何以编程方式确定写入网站内容的语言

时间:2011-11-15 10:49:17

标签: artificial-intelligence nlp

我想以编程方式确定写入网站内容的语言。

我唯一想到的是将网站的内容与特定语言共有的一些单词进行比较,并根据匹配百分比来确定语言。

有没有更好更强大的方法来解决问题?

3 个答案:

答案 0 :(得分:2)

如果您可以使用API​​(而不是自己编写),请查看此问题的特定答案:https://stackoverflow.com/questions/6151668/alternative-to-google-translate-api/8121813#8121813

引用:

  

如果您只需要语言检测,则可以使用免费的网络服务:

     

http://detectlanguage.com

     

它与Google Translate API请求/响应格式兼容。

答案 1 :(得分:1)

带有语言分类示例的神经网络教程 基于字母的平均频率 http://fann.sourceforge.net/fann_en.pdf

答案 2 :(得分:0)

我不知道您是否偏爱特定语言,但是Python还有一个用于语言检测的程序包,名为langdetect

它基于Google的自动语言检测功能,默认情况下支持55种语言。

您可以使用来安装它

pip install langdetect

然后例如运行

from langdetect import detect

detect("War doesn't show who's right, just who's left.")
detect("Ein, zwei, drei, vier")

分别返回“ en”和“ de”。

这仍然需要您访问网站的文本,例如通过requests package