如何知道html页面的语言?

时间:2019-03-18 16:50:10

标签: html

我正在创建一个爬网程序,该爬网程序可从网站下载网页文档并将网页内容存储在数据库中。
我只想存储英文文件。
我无法找出哪种语言是特定的网页,因此我可以决定是否将其存储在数据库中。

2 个答案:

答案 0 :(得分:0)

您应该使用语言识别。您可以使用一些API。它基本上是由您发送文本并返回语言来组成的。

此外,您还可以通过应用一些机器学习来构建自己的API,并在其中放置“英语”文本含义的几个示例。

我建议您在Google“语言识别API”或类似的语言中查找,以便您有一个更清晰的主意。

答案 1 :(得分:0)

我怀疑没有做到这一点的“单一”方法。一些HTML页面会声明其语言,而许多/大多数不会。您将必须提出一些启发式方法,以几种方法确定语言并根据该信息进行决策。

也许有一些权重:

  • HTML声明= 0.75
  • innerText的90%是“英语” = 0.50
  • etc等等等(想不出另一个测试)

然后确定您是否达到了说“这绝对是英语”的合理值,然后就离开了。