Scrapy(和其他非服务刮削/提取解决方案)的性能限制

时间:2015-04-07 22:41:10

标签: web-scraping web-crawler scrapy screen-scraping data-extraction

我目前正在使用一种服务,该服务提供了一个简单易用的API来设置用于数据提取的Web抓取工具。提取相当简单:从页面到页面长度不同的项目列表中的每个项目中获取标题(文本和超链接URL)以及其他两个文本属性,最大长度为30个项目。

该服务很好地执行此功能,但速度有点慢,每小时约300页。我目前正在搜集高达150,000页的时间敏感数据(我必须在几天内使用这些数据,否则它会变成#34;陈旧")我预测这个数字会增长几倍。我的解决方法是克隆这些刮刀数十次并在小型URL上同时运行它们,但这会使这个过程变得更加复杂。

我的问题是,使用Scrapy(或其他解决方案)编写我自己的刮刀并使用自己的计算机运行它是否会获得比这更大的性能,或者这个幅度是不是像Scrapy,Selenium这样的解决方案范围内,在一台精心设计的家用电脑上(连接到80mbit,8mbit up连接)。

谢谢!

1 个答案:

答案 0 :(得分:0)

您没有提供您想要搜索的网站,因此我只能根据我的常识回答。

我同意Scrapy应该能够比这更快。

使用批量提取import.io肯定更快,我在一分钟内提取了300个网址,您可能想尝试一下。

您需要尊重网站ToUs。