使用ManifoldCF

时间:2015-10-23 13:58:50

标签: apache-tika manifoldcf

我正在尝试将ManifoldCF与文件系统连接器一起使用。

它就像一个魅力:实现了Tika内容提取器,我从我的文档中获得了所有预期的元数据。

但是... 如何配置ManifoldCF以获得此命令的等效项:  java -jar tika-app-1.9.jar --text 我的意思是,我想获取文件的内容并将其推送到我的输出连接中。怎么可能?

1 个答案:

答案 0 :(得分:1)

您必须在管道中设置变压器。在配置输出连接器之前,请添加Tika transformer。使用此设置,您应该能够根据文档类型提取元数据,最终您应该看到内容和元数据被输入到输出连接器(例如solr)