我的问题和这个人的问题非常相似:
422 Tika server response? Tika-Python
但不完全是。他的问题似乎在于阅读某些文档,但是Tika可以正常工作,而对我来说文档很好,但是Tika失败了。直到4周前,我过去都使用以下python代码,没有任何问题:
from tika import unpack
result = unpack.from_file(file)
[注意:我无法缩进上面的代码。只需跳到下一部分]
当我使用此代码时,发生的事情是它只输出一个空字典。我收到警告:
Tika服务器返回状态:422
但没有错误消息。我所有的PDF文档都发生这种情况,因此问题不在于PDF文档。此外,我过去经常使用完全相同的代码,没有任何问题。我对Tika完全没有经验,只使用这小段代码,因为当我使用Python的pdfviewer时,它不起作用。因此,这是我找到的唯一可以读取我感兴趣的PDF的软件包。我尝试使用pip install Tika
重新下载Tika,但已经满足要求。我也尝试了以下命令行:
java -jar tika-app.jar -s file.pdf
但是我收到了错误消息:
错误:无法访问jarfile tika-app.jar
我对如何处理该错误进行了一些研究,因此请输入命令行:
java -jar tika-server-1.18.jar -h 0.0.0.0
但这返回了消息:
错误:无法访问jarfile tika-server-1.18.jar
通常,当我使用Tika时,会花一些时间才能使应用程序运行,而这次却没有发生。也许问题是我无法运行该应用程序。在线的Tika文档假定读者已经在前端编程方面有很多经验,而我的所有经验都是在后端编程上,所以无论如何我都不会碰头。
答案 0 :(得分:0)
默认情况下,tika服务器进程始终在后台运行,并尝试在/ tmp目录中找到 tika-server.jar 。如果该目录被刷新并且jar不存在,您将看到 Tika服务器返回状态:422 错误。
您可以通过运行以下命令来查看该过程:ps -eaf | grep'tika'
在我们的案例中,终止进程有效。