我正在使用tika server v1.20
提取文本。
Tika在文本中添加了[bookmark:xx]和[image:xx]。我不要他们。
示例输出:
天才大脑的学习方式 大卫·苏萨(David A.Sousa) [image:天才的大脑如何学习] 欢迎来到我们的第三本年度GATE家庭书研究。
复制:
运行服务器-
java -jar tika-server-1.20.jar -p 5000
输入http://localhost:5000/tika
以二进制文件和content-type
的形式附加文件:application/vnd.openxmlformats-officedocument.wordprocessingml.document
由于这种情况,使用正则表达式\[(image:|bookmark:).*?\]
删除此标签是适当的:
[image: **[1].jpg]
如何使用tika服务器并且不产生此标签? 如果不可能,如何删除它们?
答案 0 :(得分:1)
虽然您可以在Tika中通过为 EmbeddedDocumentUtil 添加自定义 DocumentSelector 来在ParseContext中使用来覆盖它,但在tika-config.xml中却没有类似的东西此刻,也不是命令行参数。
此外,Tika 1.25中提供了递归元数据端点的标头设置,可用于指定最大的嵌入式递归(请参见打击示例)。但是,您想要的内容对您的情况没有帮助:
curl -T test_recursive_embedded.docx --header "maxEmbeddedResources: 0" http://localhost:9998/rmeta
取决于要处理的内容的哪一部分,可能存在您要寻找的端点。这是 / tika / main 端点。
curl -T website\ book\ study\ how\ the\ brain\ works\ building\ background1.docx http://localhost:9998/tika/main --header "Accept: text/plain"
这旨在复制Tika App的-text-main 函数,并使用Boilerplate内容处理程序来处理文件中的主要内容。因此,这不会处理嵌入的图像。