使用python进行网页结构比较

时间:2015-12-08 12:13:52

标签: python dom data-science

我想将一组给定的网页分类到不同的类,主要是3类(产品页面,索引页面和产品相关项目页面)。我认为可以通过分析它们的结构来完成。我只是想根据他们的DOM(文档对象模型)结构来比较网页。我想知道python中是否有用于解决此问题的库。 提前谢谢。

1 个答案:

答案 0 :(得分:0)

首先,您需要确定页面中哪些元素实际上唯一地将页面标识为特定网页类。

然后你可以使用像BeautifulSoup这样的库来实际查看文档以查看这些元素是否存在。

然后你只需要一系列if / elif来确定一个页面是否有合格的元素,如果是,则将其归类为适当的网页类。