我想知道什么是最好的用于抓取和分析网站的eopen-source库。一个例子是爬虫物业代理商,在那里我想从多个站点获取信息并将它们聚合到我自己的站点中。为此,我需要抓取网站并提取属性广告。
答案 0 :(得分:8)
我使用优秀的python包urllib2,mechanize和BeautifulSoup进行了大量的搜索。
我还建议您查看lxml和Scrapy,但我目前不使用它们(仍计划尝试scrapy)。
Perl语言也有很好的抓取功能。
答案 1 :(得分:1)
PHP / cURL是一个非常强大的组合,特别是如果你想直接在网页中使用结果......
答案 2 :(得分:1)
与莫罗佐夫先生一样,我也做了很多工作,主要是工作地点。我从来没有采取机械化,如果这有助于任何。 Beautifulsoup与urllib2结合使用已经足够。
我使用过lxml,这很棒。但是,如果您需要,我相信几个月前我尝试使用Google应用时可能无法使用它。
我要感谢Morozov先生提到Scrapy。没听说过。
答案 3 :(得分:0)
除了Scrapy,你还应该看看Parselets