Question

我正在使用tika server v1.20提取文本。

Tika在文本中添加了[bookmark：xx]和[image：xx]。我不要他们。

示例输出：

天才大脑的学习方式大卫·苏萨（David A.Sousa） [image：天才的大脑如何学习] 欢迎来到我们的第三本年度GATE家庭书研究。

复制：

运行服务器-

java -jar tika-server-1.20.jar -p 5000

输入http://localhost:5000/tika

以二进制文件和content-type的形式附加文件：application/vnd.openxmlformats-officedocument.wordprocessingml.document

由于这种情况，使用正则表达式\[(image:|bookmark:).*?\]删除此标签是适当的：

[image: **[1].jpg]

如何使用tika服务器并且不产生此标签？如果不可能，如何删除它们？

Answer 1

虽然您可以在Tika中通过为 EmbeddedDocumentUtil 添加自定义 DocumentSelector 来在ParseContext中使用来覆盖它，但在tika-config.xml中却没有类似的东西此刻，也不是命令行参数。

此外，Tika 1.25中提供了递归元数据端点的标头设置，可用于指定最大的嵌入式递归（请参见打击示例）。但是，您想要的内容对您的情况没有帮助：

curl -T test_recursive_embedded.docx --header "maxEmbeddedResources: 0" http://localhost:9998/rmeta

取决于要处理的内容的哪一部分，可能存在您要寻找的端点。这是 / tika / main 端点。

curl -T website\ book\ study\ how\ the\ brain\ works\ building\ background1.docx http://localhost:9998/tika/main --header "Accept: text/plain"

这旨在复制Tika App的-text-main 函数，并使用Boilerplate内容处理程序来处理文件中的主要内容。因此，这不会处理嵌入的图像。