最好的屏幕刮刀,简单的html dom或snoopy?

时间:2009-11-24 10:21:38

标签: screen-scraping

哪一个更适合屏幕抓取? 简单的html dom snoopy ?? 我使用简单的html dom,发现它很舒服.. 史努比比简单的html dom有什么优势吗?

我的要求:如果我想从页面中抓取内容(登录后).. 简单的html dom很简单,但打印结果需要很长时间..

2 个答案:

答案 0 :(得分:1)

Snoopy是一个众所周知/成熟的软件包吗?

如果不是,那么所有其他事情都是平等的,我可能会使用通用的HTML DOM代码 - 特别是如果抓取有点简单。

但只有你知道你的代码什么时候开始变得太大,无法管理等等,在这一点上,看看像Snoopy这样的其他工具可能会更好。

(诚然,我没有经验;对于那些不熟悉它的人来说显然是http://sourceforge.net/projects/snoopy/ - “Snoopy是一个模拟网络浏览器的PHP类。它自动执行检索网络的任务例如,页面内容和发布表单。“)

我发布的真正原因,即使我不知道史努比本身也因此无法明确回答你的问题,就是问你是否考虑过使用Selenium(http://www.seleniumhq.org/)代替史努比。

Selenium是一个相当着名的测试工具,在我看来,使用它做你正在做的事情(如果可以的话)的一个好处就是它内置了测试。

好的原因是屏幕抓取是一种固有的脆弱任务 - 如果目标网站发生了变化,那么你的抓取就会失败。所以这是一个很好的设计,有一个自动刮刮/测试刮刮工作系统。

无论如何要考虑的事情。

答案 1 :(得分:0)

我偶然发现了基于Python的BeautifulSoup。我想也有很多其他人。

看起来Snoopy是基于PHP的,因此只能在服务器端运行。这是你真正想要的吗?你有什么要求?请详细说明。