建议数据库存储有关2亿张图像(100万本书)的元数据(NoSQL?SQL?)

时间:2010-06-24 10:59:10

标签: metadata nosql rdf semantics scanning

朋友,

我们将开展扫描超过100万本书籍的知识保存项目。我们需要一些关于实现数据库的建议来存储和检索元数据,以及用它来跟踪每个对象(书)的扫描状态

  1. 你们可以建议我们选择SQL还是NoSQL(元数据可能因项目而异,说这个项目可能有15个字段)

  2. 我们正在考虑基于Lucene / Solr或某些可扩展的RDF数据库的东西

  3. 我们能够使用搜索功能定义自定义元数据字段和存储信息的任何开源解决方案吗?

2 个答案:

答案 0 :(得分:0)

免责声明:从未尝试过此类项目

我从MSSQL服务器的“Filestream”类型中看到了非常好的性能。它使用NTFS文件API来存储二进制数据,并将指针保存在表的行中。

如果元数据上没有结构,您可以使用XML,但如果您确实有重复结构将其推送到关系数据中,那么您可以使用索引等来帮助您获得性能。

Filestream Type

答案 1 :(得分:0)

可以使用任何数据库和一些自定义代码创建这样的解决方案,但使用CMS(内容管理系统)可能会更容易。 CMS解决方案隐藏了底层数据库的详细信息,并允许您使用一组可扩展的元数据来描述您的文档。

您使用的CMS系统将取决于您的预算,内部专业知识和您的需求以及其他因素。我一直在使用Alfresco(商业开源),部分原因是我的公司已经决定,但如果我要做一个低预算的网站,我可能会考虑非企业版。哦,Alfresco利用Lucene进行搜索。

如果您的需求非常基本,那么元数据的数据库,图像的文件系统和服务器的一些代码就足够了。避免尝试将图像存储在数据库中,因为根据我的经验,这不是数据库最擅长的。