从这么多网页中获取数据的最快方法是什么?

时间:2013-04-19 06:29:50

标签: python mysql google-app-engine google-cloud-datastore web-scraping

我需要同时废弃大约40个随机网页。这些页面因每个请求而异。 我在python中使用了rpcs来获取url并使用BeautifulSoup来抓取数据。废弃所有数据并在屏幕上显示大约需要25秒。

为了提高速度,我将数据存储在appengine数据存储区中,这样每个数据只能被抓取一次,并且可以从那里快速访问。

但问题是 - >随着数据存储中数据大小的增加,从数据存储区获取数据所需的时间过长(超过了搜索)。

我应该使用memcache还是转移到mysql? mysql比gae-datastore更快吗? 或者还有其他更好的方法来尽快获取数据吗?

1 个答案:

答案 0 :(得分:0)

根据我对你的应用的了解,使用memcache是​​有意义的。它会更快,并会自动处理过期的缓存条目等过期。