我正在寻找有关屏幕刮板的建议,我需要从某些网站提取“联系我们”信息。
我可以获得一个好的(免费的)屏幕保护程序吗?
答案 0 :(得分:4)
写自己的 - 这并不难。如果您不熟悉编程或者可以选择编程语言:使用Python库支持来做好刮擦。
至于如何解决问题,他们是两种流行的技术:使用regular expressions,它们最适合 ad-hoc 屏幕抓取。如果您的目标网站结构合理 - 请阅读:不是临时的 - 然后使用允许您使用DOM的框架。
导航和提取
这是编写spider的两个阶段。您的蜘蛛需要浏览网站以访问不同的页面,并且需要提取感兴趣的信息。这两个阶段都可以由DOM或RE的
驱动p.s。,因为你的名字表示.NET - 我应该提到我在C-Sharp写过刮刀 - 这是一个轻而易举的事。