我的抓取工具正在抓取所有网站并从中获取元数据信息。 然后,我将运行一个脚本来清理URL并将它们存储在Amazon RDS中。
我的问题是我应该使用什么数据存储来存储数据以进行清理(删除不需要的URL)。我不希望抓取工具命中亚马逊RDS,这会降低它的速度。
我应该使用Amazon SimpleDB吗?然后我可以从SimpleDB读取,清理URL并将其移动到Amazon RDS。
答案 0 :(得分:1)
您始终可以使用数据库,但问题在于磁盘访问权限。每次你进行磁盘访问以读取一堆URL都会清理它们并再次将它们写入另一个db,这是另一个磁盘访问。如果您不关心性能,这个过程就可以了。
一种解决方案是您可以使用任何数据结构,如列表一样简单,存储一堆或URL有一个线程,当列表达到阈值时清除URL,然后您可以将这些URL写入Amazon RDS