"数据存储库"软件解决方案

时间:2016-01-05 17:05:24

标签: repository dspace data-management

我正在尝试找到一个软件解决方案,允许我们的小组轻松上传数据集(可编写脚本或通过某些UI),标记这些数据集,检索这些数据集,访问数据集控件,搜索标签,搜索文件名称/属性/元数据(例如文件创建日期)。数据集可以是CSV文件,图像(二进制)数据集,文本,服务器日志,图像文件夹中的文件夹,csv数据的zip文件。它可以是任何。我们需要将GB存储到潜在的PB数据中。单个文件的范围可以从几KB到100 GB。可用的API以编程方式检索这些数据集。

我们只想拥有一个查找信息的集中位置,我们希望能够回答一个问题,例如"嘿,你知道我们是否有任何闪电数据集?"如果文件/文件夹/ zip文件标有" lightening"当我搜索它应该拉回该数据集。

可能的解决方案是像Dataverse,Dspace,Fedora Commons,CKAN。然而,这些似乎真正面向学术界和出版物或小型数据集。最重要的是,它们删除了可能存在的任何类型的复杂文件夹结构(例如Folder1 - > subFolder1 - > subFolder2)。我还质疑在其中一个系统中拥有1000万个100kb文件的可扩展性。

文件系统共享将允许我们简单地存储我们想要的任何内容,但我不知道启用数据标记的合理方法。

这几乎就像我在寻找两者的结合。有人知道一个工具,最好是开源的,可以做这样的事情吗?

1 个答案:

答案 0 :(得分:1)

根据您到目前为止所描述的内容,DSpace确实非常合适。

通过以下示例,我想解决您提出的问题:

<强>可扩展性 这是一个多太字节项目的示例: https://ore.exeter.ac.uk/repository/handle/10871/14881

复杂结构 Dryad基于DSpace并使用更复杂的数据模型,数据文件,数据包和原始出版物均表示为单独的对象: http://datadryad.org/resource/doi:10.5061/dryad.322vn

如果这就是你想要的,你也可以从Dryad代码库开始你的项目,因为这个也是开源的: https://github.com/datadryad/dryad-repo