我一直在研究Dspace的项目 我一直在使用Enron Mail Corpus(从CMU源代码下载)。
我的问题是:
手动提供每封邮件的元数据不是一个可行的选择,因为它们有数百万! Dspace中的进口设施可以提供任何帮助吗?或者是否有要编辑的文件?
我需要一些可行且快速的东西:我应该怎么做才能为系统提供这么多邮件?
答案 0 :(得分:1)
如果要编辑或导入大量数据,可以使用批量元数据编辑。它非常适合导入元数据值,但必须稍后手动添加文件。 有关更多信息,请访问https://wiki.duraspace.org/display/DSDOC3x/Batch+Metadata+Editing#BatchMetadataEditing-TheCSVFiles
关于第二个问题,有一个流程可以索引支持的文件“Filter-media”。它支持Adobe PDF,HTML,文本,Microsoft Word和Microsoft Powerpoint。您可以编写一个java类来索引其他格式以满足您的需求。 它执行了/ bin / dspace过滤介质,应该作为cron添加。