.net - Web爬虫的最佳数据库设计

时间：2011-07-05 08:22:52

标签： .net database performance web-crawler

许多数据库系统适合与网络爬虫一起使用，但是是否有专门为网络爬虫开发的数据库系统（在.net中）。

我的经验表明，网络抓取工具有许多部件和服务，每个部分都需要一些特定的功能。例如，为了缓存网页，我们需要一些像sql server FILESTREAM这样的东西。或检查数据库中是否已存在URL，最佳选择是memcached。

事实上我有两个问题

1）使用网络爬虫的最佳数据库系统是什么？

2）是否存在涵盖所有功能的数据库系统!!!!!!!!!

答案 0 :(得分：1)

仅供参考，据我所知，谷歌没有使用任何理性的数据库引擎，而是拥有专有的文件系统GFS和他们自己的数据持久性抽象。

谁告诉过你memcached是最好的选择？考虑到如果数据量是BIIIG，你会耗尽内存，当然，如果你有一个大数据中心并且能够在内存中的机器之间共享数据...

我认为不是最好的选择，最好的可能是谷歌，他们已经完成了大部分内容。

如果你可以处理高级别（但仍然不是最好的），我认为所有引擎，如SQL Server，Oracle，mySQL和其他许多引擎都可以表现良好，这更多地取决于你如何使用它们以及你如何构建你的溶液

答案 1 :(得分：0)

Google使用面向列的数据库BIGTABLE来存储其抓取工具结果以及谷歌文档，以及构建在GFS（Google文件系统）之上的其他Google产品。他们的设计是我所知道的最好的。

Apache HBase在实现Bigtable方面类似。 HBase构建于HDFS（Hadoop分布式文件系统）之上。