我正在创建一个爬网程序,该爬网程序可从网站下载网页文档并将网页内容存储在数据库中。
我只想存储英文文件。
我无法找出哪种语言是特定的网页,因此我可以决定是否将其存储在数据库中。
答案 0 :(得分:0)
您应该使用语言识别。您可以使用一些API。它基本上是由您发送文本并返回语言来组成的。
此外,您还可以通过应用一些机器学习来构建自己的API,并在其中放置“英语”文本含义的几个示例。
我建议您在Google“语言识别API”或类似的语言中查找,以便您有一个更清晰的主意。
答案 1 :(得分:0)
我怀疑没有做到这一点的“单一”方法。一些HTML页面会声明其语言,而许多/大多数不会。您将必须提出一些启发式方法,以几种方法确定语言并根据该信息进行决策。
也许有一些权重:
然后确定您是否达到了说“这绝对是英语”的合理值,然后就离开了。