我想以编程方式确定写入网站内容的语言。
我唯一想到的是将网站的内容与特定语言共有的一些单词进行比较,并根据匹配百分比来确定语言。
有没有更好更强大的方法来解决问题?
答案 0 :(得分:2)
如果您可以使用API(而不是自己编写),请查看此问题的特定答案:https://stackoverflow.com/questions/6151668/alternative-to-google-translate-api/8121813#8121813
引用:
如果您只需要语言检测,则可以使用免费的网络服务:
它与Google Translate API请求/响应格式兼容。
答案 1 :(得分:1)
带有语言分类示例的神经网络教程 基于字母的平均频率 http://fann.sourceforge.net/fann_en.pdf
答案 2 :(得分:0)
我不知道您是否偏爱特定语言,但是Python还有一个用于语言检测的程序包,名为langdetect
它基于Google的自动语言检测功能,默认情况下支持55种语言。
您可以使用来安装它
pip install langdetect
然后例如运行
from langdetect import detect
detect("War doesn't show who's right, just who's left.")
detect("Ein, zwei, drei, vier")
分别返回“ en”和“ de”。
这仍然需要您访问网站的文本,例如通过requests package