如何以编程方式识别网站结构的变化

时间:2018-12-17 08:53:08

标签: python web-scraping scrapy web-crawler health-monitoring

在实现Python Scrapy搜寻器的过程中,我想添加一个强大的机制来监视/检测网站内潜在的布局更改。

这些更改不会不必要影响现有的蜘蛛选择器-例如,一个站点添加了一个新的HTML元素来表示某项已收到的访问者的数量-我现在可能会对解析该元素感兴趣。 话虽如此,在选择器问题(Xpath / CSS)被删除/重定位的情况下,检测它们也将是有益的。

请注意,这与选择器内容更改或网站刷新(if-modified-sincelast-modified)无关,而是与站点的结构/节点/布局有关的修改。

因此,如何实施逻辑来监视这种情况?

1 个答案:

答案 0 :(得分:2)

实际上,这是一个研究主题,您可以在this paper上看到,但是当然有一些已实现的工具可供您查看:

(在以前的方法上)比较的基础基本上是使用html布局的Tree Edit Distance