期待刮一个网站

时间:2009-08-28 23:53:42

标签: web screen-scraping

我正在寻找像yelp.com这样的网站,以获得他们在那里所有酒吧的列表。 是否有任何工具或脚本可以帮助我做到这一点。

5 个答案:

答案 0 :(得分:8)

从Python的角度来看

阅读An Introduction to Compassionate Screen Scraping以获取使用这两种工具的优秀教程。

答案 1 :(得分:2)

如果您了解Python,我会找到pyQuery模块。像jQuery一样,它允许你使用增强的CSS选择器来选择DOM对象,我发现它比使用解析器容易得多。

答案 2 :(得分:1)

我使用screen-scraper在Superpages和citySearch上完成了这样的工作。从那里,您可以将结果写入CSV,数据库或其他任何内容。

答案 3 :(得分:0)

HTTrack - 它的跨平台,多年来一直在使用它

答案 4 :(得分:0)

我在网络时代写了一个刮刀来吸取一些电子商务网站的信息。我使用perl并且每个站点都有两层代码。 “发现”层将解析并查找项目列表,“过程”层将读取产品页面和单独的数据字段并将其提供给数据库。

从您想要做的事情来看,我认为推出自己的解决方案可能是最好的方法,因为它并不是很复杂。使用Perl或类似的解释语言,具有良好的字符串处理和正则表达式支持。

分离页面非常简单。忘记解析树(我就这样放弃了它),手动识别模板文本块与你想要的每条信息接壤并将其放在正则表达式上以提取数据更加容易和直接。 / p>

将它们放在列表,哈希,等等,然后用它做你想做的事。