应用错误收集

我正在尝试找到一个软件解决方案，允许我们的小组轻松上传数据集（可编写脚本或通过某些UI），标记这些数据集，检索这些数据集，访问数据集控件，搜索标签，搜索文件名称/属性/元数据（例如文件创建日期）。数据集可以是CSV文件，图像（二进制）数据集，文本，服务器日志，图像文件夹中的文件夹，csv数据的zip文件。它可以是任何。我们需要将GB存储到潜在的PB数据中。单个文件的范围可以从几KB到100 GB。可用的API以编程方式检索这些数据集。

我们只想拥有一个查找信息的集中位置，我们希望能够回答一个问题，例如＆＃34;嘿，你知道我们是否有任何闪电数据集？＆＃34;如果文件/文件夹/ zip文件标有＆＃34; lightening＆＃34;当我搜索它应该拉回该数据集。

可能的解决方案是像Dataverse，Dspace，Fedora Commons，CKAN。然而，这些似乎真正面向学术界和出版物或小型数据集。最重要的是，它们删除了可能存在的任何类型的复杂文件夹结构（例如Folder1 - ＆gt; subFolder1 - ＆gt; subFolder2）。我还质疑在其中一个系统中拥有1000万个100kb文件的可扩展性。

文件系统共享将允许我们简单地存储我们想要的任何内容，但我不知道启用数据标记的合理方法。

这几乎就像我在寻找两者的结合。有人知道一个工具，最好是开源的，可以做这样的事情吗？

＆＃34;数据存储库＆＃34;软件解决方案

1 个答案: