我想将一组给定的网页分类到不同的类,主要是3类(产品页面,索引页面和产品相关项目页面)。我认为可以通过分析它们的结构来完成。我只是想根据他们的DOM(文档对象模型)结构来比较网页。我想知道python中是否有用于解决此问题的库。 提前谢谢。
答案 0 :(得分:0)
首先,您需要确定页面中哪些元素实际上唯一地将页面标识为特定网页类。
然后你可以使用像BeautifulSoup这样的库来实际查看文档以查看这些元素是否存在。
然后你只需要一系列if / elif来确定一个页面是否有合格的元素,如果是,则将其归类为适当的网页类。