Web爬网程序的哪个数据库,以及如何在分布式环境中使用MySQL?

时间:2010-08-17 15:19:09

标签: mysql innodb myisam distributed-database

我应该将哪个数据库引擎用于网络爬虫,InnoDB或MYiSAM?我有两台PC,每台都有1TB硬盘。如果一个填满,我希望它自动保存到另一台PC,但读取应该到正确的PC;我该怎么做?

2 个答案:

答案 0 :(得分:1)

至于问题的第一部分,它取决于你的确切实施。如果您要使用受网络带宽限制的单个爬虫,那么MYiSAM可以更快。如果您使用多个抓取工具,那么InnoDB将为您提供诸如可能有用的交易等优势。

AFAIK MySQL不支持您建议的硬件配置。如果您需要大容量存储,您可能需要查看MySQL Cluster。

答案 1 :(得分:0)

MyISAM是第一选择,因为你将只写操作和爬虫 - 甚至并行运行 - 将被配置 - 我想 - 抓取不同的域/网址。因此,您无需处理访问冲突。

在写入大量数据时,特别是文本!,以避免事务,索引等等,因为它会大大减慢MySQL的速度。