我应该使用哪些数据存储来存储来自抓取工具的临时数据?

时间:2011-07-12 18:04:22

标签: amazon-web-services amazon-simpledb amazon-rds

我的抓取工具正在抓取所有网站并从中获取元数据信息。 然后,我将运行一个脚本来清理URL并将它们存储在Amazon RDS中。

我的问题是我应该使用什么数据存储来存储数据以进行清理(删除不需要的URL)。我不希望抓取工具命中亚马逊RDS,这会降低它的速度。

我应该使用Amazon SimpleDB吗?然后我可以从SimpleDB读取,清理URL并将其移动到Amazon RDS。

1 个答案:

答案 0 :(得分:1)

您始终可以使用数据库,但问题在于磁盘访问权限。每次你进行磁盘访问以读取一堆URL都会清理它们并再次将它们写入另一个db,这是另一个磁盘访问。如果您不关心性能,这个过程就可以了。

一种解决方案是您可以使用任何数据结构,如列表一样简单,存储一堆或URL有一个线程,当列表达到阈值时清除URL,然后您可以将这些URL写入Amazon RDS