Web爬虫的最佳数据库设计

时间:2011-07-05 08:22:52

标签: .net database performance web-crawler

许多数据库系统适合与网络爬虫一起使用,但是是否有专门为网络爬虫开发的数据库系统(在.net中)。

我的经验表明,网络抓取工具有许多部件和服务,每个部分都需要一些特定的功能。例如,为了缓存网页,我们需要一些像sql server FILESTREAM这样的东西。或检查数据库中是否已存在URL,最佳选择是memcached

事实上我有两个问题

1)使用网络爬虫的最佳数据库系统是什么?

2)是否存在涵盖所有功能的数据库系统!!!!!!!!!

2 个答案:

答案 0 :(得分:1)

仅供参考,据我所知,谷歌没有使用任何理性的数据库引擎,而是拥有专有的文件系统GFS和他们自己的数据持久性抽象。

谁告诉过你memcached是最好的选择?考虑到如果数据量是BIIIG,你会耗尽内存,当然,如果你有一个大数据中心并且能够在内存中的机器之间共享数据...

我认为不是最好的选择,最好的可能是谷歌,他们已经完成了大部分内容。

如果你可以处理高级别(但仍然不是最好的),我认为所有引擎,如SQL Server,Oracle,mySQL和其他许多引擎都可以表现良好,这更多地取决于你如何使用它们以及你如何构建你的溶液

答案 1 :(得分:0)

Google使用面向列的数据库BIGTABLE来存储其抓取工具结果以及谷歌文档,以及构建在GFS(Google文件系统)之上的其他Google产品。他们的设计是我所知道的最好的。

Apache HBase在实现Bigtable方面类似。 HBase构建于HDFS(Hadoop分布式文件系统)之上。

相关问题