Dspace安然搜索工具

时间:2014-10-02 01:48:44

标签: xml csv indexing metadata dspace

我一直在研究Dspace的项目 我一直在使用Enron Mail Corpus(从CMU源代码下载)。

我的问题是:

  1. 我想收集600k电子邮件的全部集合,然后生成一个可以搜索它们的存储库
  2. 手动提供每封邮件的元数据不是一个可行的选择,因为它们有数百万! Dspace中的进口设施可以提供任何帮助吗?或者是否有要编辑的文件?

    我需要一些可行且快速的东西:我应该怎么做才能为系统提供这么多邮件?

    1. 第二个问题:是否可以将任何集合中的附件编入索引?我的意思是我可以搜索文件搜索工具的内容吗?

1 个答案:

答案 0 :(得分:1)

如果要编辑或导入大量数据,可以使用批量元数据编辑。它非常适合导入元数据值,但必须稍后手动添加文件。 有关更多信息,请访问https://wiki.duraspace.org/display/DSDOC3x/Batch+Metadata+Editing#BatchMetadataEditing-TheCSVFiles

关于第二个问题,有一个流程可以索引支持的文件“Filter-media”。它支持Adobe PDF,HTML,文本,Microsoft Word和Microsoft Powerpoint。您可以编写一个java类来索引其他格式以满足您的需求。 它执行了/ bin / dspace过滤介质,应该作为cron添加。