从Tika中提取文本内容而不指定文件头

时间:2015-06-02 11:59:10

标签: apache-tika

有没有办法在没有明确定义标题的情况下使用Tika服务器从文件中提取内容?例如,对于名为" file.pdf"的特定文件;如果我做

curl -X PUT --data-binary @file.pdf localhost:9998/tika --header "Content-type: application/pdf" > file.txt    

我在" file.txt"中获取了提取的内容。但如果我省略

' --header "Content-type: application/pdf" ' 

我得到一个空的" file.txt"。

通常有一种方法可以自动化将文档提交给tika服务器并使用单个命令在txt中提取内容的过程吗?

或者,如何在此问题开头使用管道将文件的可能Tika标题输出答案重定向到命令?

非常感谢社区!

1 个答案:

答案 0 :(得分:1)

您正在调用Tika服务器以获取自动检测功能。如Tika Server wiki page所述,要从任何文件(包括PDF)中提取纯文本,您应该运行Curl:

curl -T file.pdf http://localhost:9998/tika --header "Accept: text/plain"

您需要一个接受标头来告诉Tika您希望您的结果是什么格式(纯文本或HTML用于文本提取,更多格式可用于元数据)。只要您使用-T选项直接发送文件,就会自动检测其类型