问题与pdf无关时,如何处理Tika Server警告422?

时间:2019-01-09 18:16:49

标签: python apache-tika

我的问题和这个人的问题非常相似:

422 Tika server response? Tika-Python

但不完全是。他的问题似乎在于阅读某些文档,但是Tika可以正常工作,而对我来说文档很好,但是Tika失败了。直到4周前,我过去都使用以下python代码,没有任何问题:

from tika import unpack
result = unpack.from_file(file)

[注意:我无法缩进上面的代码。只需跳到下一部分]

当我使用此代码时,发生的事情是它只输出一个空字典。我收到警告:

  

Tika服务器返回状态:422

但没有错误消息。我所有的PDF文档都发生这种情况,因此问题不在于PDF文档。此外,我过去经常使用完全相同的代码,没有任何问题。我对Tika完全没有经验,只使用这小段代码,因为当我使用Python的pdfviewer时,它不起作用。因此,这是我找到的唯一可以读取我感兴趣的PDF的软件包。我尝试使用pip install Tika重新下载Tika,但已经满足要求。我也尝试了以下命令行:

java -jar tika-app.jar -s file.pdf

但是我收到了错误消息:

  

错误:无法访问jarfile tika-app.jar

我对如何处理该错误进行了一些研究,因此请输入命令行:

java -jar tika-server-1.18.jar -h 0.0.0.0

但这返回了消息:

  

错误:无法访问jarfile tika-server-1.18.jar

通常,当我使用Tika时,会花一些时间才能使应用程序运行,而这次却没有发生。也许问题是我无法运行该应用程序。在线的Tika文档假定读者已经在前端编程方面有很多经验,而我的所有经验都是在后端编程上,所以无论如何我都不会碰头。

1 个答案:

答案 0 :(得分:0)

默认情况下,tika服务器进程始终在后台运行,并尝试在/ tmp目录中找到 tika-server.jar 。如果该目录被刷新并且jar不存在,您将看到 Tika服务器返回状态:422 错误。

您可以通过运行以下命令来查看该过程:ps -eaf | grep'tika'

在我们的案例中,终止进程有效。