除了正则表达式之外还有另一种方法可以进行屏幕抓取吗?

时间:2008-09-17 07:35:31

标签: screen-scraping

我正在做一个个人的,只是为了好玩的项目,使用屏幕抓取来给我一个系统托盘通知,以防添加,修改或删除HTML表格上的另一行。

在我想到之前完成了这个:好吧,让我们继续使用正则表达式的东西就是这样,但是作为一个好奇的人,让我觉得可能还有其他东西可以有另一个范例但是使用起来很简单

我了解DOM和X-Path以及所有xml'ish方法。我正在寻找框外的东西,甚至可以在一组规则中定义,这样你就可以建立一个插件系统来聚合各种网站。

3 个答案:

答案 0 :(得分:3)

答案 1 :(得分:0)

这是一个想法:假设您的主要用例是在HTML文件更改时收到通知,为什么不使用标准差异工具然后循环更改的行,应用您的规则?

此外,如果您有权访问服务器和正在观看的文件,您可以将所有内容置于CVS(或类似版本)的源代码管理之下,只需查看提交即可。如果你想对网上的随机网站使用这种方法,只需编写一个脚本,定期下载适当URL的html,然后将其提交给源代码控制并观察差异。

不太实用,但在盒子外面。

答案 2 :(得分:-1)

如果您可以使用SgmlReaderHtmlTidy等内容将源转换为有效的XHTML / XML,那么您可以使用XSLT。只需为您想要抓取的每个站点创建一个XSL模板。