我正在使用CMIS查询将manifoldcf或mcf与alfresco cms集成为存储库连接器,并使用solr作为存储所有索引的输出通道。我能做得很好&可以在solr索引中搜索文档。
现在作为实施的一部分,我计划引入多个存储库,例如sharepoint,文件系统等。所以现在我有三个文档存储库:alfresco,sharepoint&文件系统。我计划安排在每个存储库中运行的作业,并以特定的时间间隔对其进行爬网。但我有以下争论。
非常感谢提前。
答案 0 :(得分:0)
ManifoldCF根据您为作业配置的内容安排作业。
它取决于您的存储库连接器的编写方式,通常在作业运行时它运行存储库连接器的getDocumentVersion(),如果文档规范的版本与早期版本不同,则不会记录其他文件的歧管索引。通常,您的文档版本字符串是文档的最后修改日期
不幸的是,从开发人员的角度来看,歧管并不包含太多的文档,你可能的赌注是通过代码。这很有说服力。
这是根据mcf文档
使用" minimal"考虑到作业的连接类型使用的模型,列出的操作的变体将执行最小可能的工作量。在某些情况下,这意味着会对添加和修改编制索引,但不会检测到删除mcf doc jobs
你应该在public String [] getDocumentVersions(..)
OOTB功能,已经足够了。但有一点需要考虑文件的许可。如果更改了文档的权限,您可以选择更改文档的版本。