我目前正在研究用于我正在进行的项目的数据库。希望你们能给我一些提示。
该项目是一个自动网络爬虫,可根据用户的请求检查网站,在某些情况下擦除数据,并创建已完成内容的日志文件。
要求:
我认为它既不是图形数据库(也不是复杂的关联),也不是基于内存的键/值存储(缓存中容纳的数据太多)。我仍然可以找到我能找到的其他类型的数据库,每个数据库似乎都有它的优点。
那么,专业人士的任何建议我应该如何决定?
感谢。
答案 0 :(得分:3)
Google为抓取,索引和搜索相关业务构建了一个名为“BigTable”的数据库。他们发布了一篇关于它的论文(谷歌如果你感兴趣的话,可以选择“BigTable”)。有类似bigtable的设计有几种开源实现,其中一种是Hypertable。我们有一篇博客文章描述了来自sehrch.com的人员编写的爬虫/索引器实现(http://hypertable.com/blog/sehrchcom_a_structured_search_engine_powered_by_hypertable/)。并查看您的要求:所有这些都是受支持的并且是常见用例。
(免责声明:我为高压工作。)
答案 1 :(得分:3)
我同意弗拉基米尔的观点,你会想要考虑这个场景的基于文档的数据库。我最熟悉MongoDB。我在这里使用它的原因如下:
答案 2 :(得分:0)