在实现Python Scrapy搜寻器的过程中,我想添加一个强大的机制来监视/检测网站内潜在的布局更改。
这些更改不会不必要影响现有的蜘蛛选择器-例如,一个站点添加了一个新的HTML元素来表示某项已收到的访问者的数量-我现在可能会对解析该元素感兴趣。 话虽如此,在选择器问题(Xpath / CSS)被删除/重定位的情况下,检测它们也将是有益的。
请注意,这与选择器内容更改或网站刷新(if-modified-since
或last-modified
)无关,而是与站点的结构/节点/布局有关的修改。
因此,如何实施逻辑来监视这种情况?
答案 0 :(得分:2)
实际上,这是一个研究主题,您可以在this paper上看到,但是当然有一些已实现的工具可供您查看:
(在以前的方法上)比较的基础基本上是使用html布局的Tree Edit Distance。