使用screenscrapers提取数据

时间:2010-01-17 15:44:05

标签: screen-scraping html-content-extraction

我正在寻找有关屏幕刮板的建议,我需要从某些网站提取“联系我们”信息。

我可以获得一个好的(免费的)屏幕保护程序吗?

1 个答案:

答案 0 :(得分:4)

写自己的 - 这并不难。如果您不熟悉编程或者可以选择编程语言:使用Python库支持来做好刮擦。

至于如何解决问题,他们是两种流行的技术:使用regular expressions,它们最适合 ad-hoc 屏幕抓取。如果您的目标网站结构合理 - 请阅读:不是临时的 - 然后使用允许您使用DOM的框架。

导航和提取

这是编写spider的两个阶段。您的蜘蛛需要浏览网站以访问不同的页面,并且需要提取感兴趣的信息。这两个阶段都可以由DOM或RE的

驱动

p.s。,因为你的名字表示.NET - 我应该提到我在C-Sharp写过刮刀 - 这是一个轻而易举的事。