有没有办法在没有明确定义标题的情况下使用Tika服务器从文件中提取内容?例如,对于名为" file.pdf"的特定文件;如果我做
curl -X PUT --data-binary @file.pdf localhost:9998/tika --header "Content-type: application/pdf" > file.txt
我在" file.txt"中获取了提取的内容。但如果我省略
' --header "Content-type: application/pdf" '
我得到一个空的" file.txt"。
通常有一种方法可以自动化将文档提交给tika服务器并使用单个命令在txt中提取内容的过程吗?
或者,如何在此问题开头使用管道将文件的可能Tika标题输出答案重定向到命令?
非常感谢社区!
答案 0 :(得分:1)
您正在调用Tika服务器以获取自动检测功能。如Tika Server wiki page所述,要从任何文件(包括PDF)中提取纯文本,您应该运行Curl:
curl -T file.pdf http://localhost:9998/tika --header "Accept: text/plain"
您需要一个接受标头来告诉Tika您希望您的结果是什么格式(纯文本或HTML用于文本提取,更多格式可用于元数据)。只要您使用-T
选项直接发送文件,就会自动检测其类型