Tika Server-没有书签和图像标签的解析

时间:2019-10-03 11:19:51

标签: apache-tika tika-server

我正在使用tika server v1.20提取文本。

Tika在文本中添加了[bookmark:xx]和[image:xx]。我不要他们。

示例输出:

  

天才大脑的学习方式   大卫·苏萨(David A.Sousa)    [image:天才的大脑如何学习]   欢迎来到我们的第三本年度GATE家庭书研究。

复制:

运行服务器-

java -jar tika-server-1.20.jar -p 5000

输入http://localhost:5000/tika

以二进制文件和content-type的形式附加文件:application/vnd.openxmlformats-officedocument.wordprocessingml.document

输入文件:http://www.hasd.org/cms_files/resources/website%20book%20study%20how%20the%20brain%20works%20building%20background1.docx

由于这种情况,使用正则表达式\[(image:|bookmark:).*?\]删除此标签是适当的:

[image: **[1].jpg]

如何使用tika服务器并且不产生此标签? 如果不可能,如何删除它们?

1 个答案:

答案 0 :(得分:1)

虽然您可以在Tika中通过为 EmbeddedDocumentUtil 添加自定义 DocumentSelector 来在ParseContext中使用来覆盖它,但在tika-config.xml中却没有类似的东西此刻,也不是命令行参数。

此外,Tika 1.25中提供了递归元数据端点的标头设置,可用于指定最大的嵌入式递归(请参见打击示例)。但是,您想要的内容对您的情况没有帮助:

curl -T test_recursive_embedded.docx --header "maxEmbeddedResources: 0" http://localhost:9998/rmeta

取决于要处理的内容的哪一部分,可能存在您要寻找的端点。这是 / tika / main 端点。

curl -T website\ book\ study\ how\ the\ brain\ works\ building\ background1.docx http://localhost:9998/tika/main --header "Accept: text/plain"

这旨在复制Tika App的-text-main 函数,并使用Boilerplate内容处理程序来处理文件中的主要内容。因此,这不会处理嵌入的图像。