Question

有没有办法在没有明确定义标题的情况下使用Tika服务器从文件中提取内容？例如，对于名为＆＃34; file.pdf＆＃34;的特定文件;如果我做

curl -X PUT --data-binary @file.pdf localhost:9998/tika --header "Content-type: application/pdf" > file.txt

我在＆＃34; file.txt＆＃34;中获取了提取的内容。但如果我省略

' --header "Content-type: application/pdf" '

我得到一个空的＆＃34; file.txt＆＃34;。

通常有一种方法可以自动化将文档提交给tika服务器并使用单个命令在txt中提取内容的过程吗？

或者，如何在此问题开头使用管道将文件的可能Tika标题输出答案重定向到命令？

非常感谢社区！

Answer 1

您正在调用Tika服务器以获取自动检测功能。如Tika Server wiki page所述，要从任何文件（包括PDF）中提取纯文本，您应该运行Curl：

curl -T file.pdf http://localhost:9998/tika --header "Accept: text/plain"

您需要一个接受标头来告诉Tika您希望您的结果是什么格式（纯文本或HTML用于文本提取，更多格式可用于元数据）。只要您使用-T选项直接发送文件，就会自动检测其类型