如何在python

时间:2019-11-13 15:19:13

标签: python ocr apache-tika tika-server

我已经使用pip install tika == 1.22版本在python中下载了tika。该软件包包含以下文件
  1.配置
  2.检测器
  3.语言
  4.解析器
  5.蒂卡
  6.翻译
  7.打开包装
我通过以下方式在python程序中使用tika

from tika import parser
parsed = parser.from_file(file, serverEndpoint='http://localhost:9998/rmeta/text')
text = parsed['content']
print(text)

它为我的某些图像提供了正确的输出。但是就文档而言,tika使用默认页面分段为“ 1”。我想在配置中将页面细分更改为“ 6”。我找到了在Java中更改psm的文档。但是我无法为tika找到适用于python的任何东西。下面是java的方法。

  

作为请求的一部分覆盖配置的语言   不同的请求可能需要使用不同的语言模型进行处理。可以使用X-Tika-OCRLanguage自定义标头为特定请求指定这些内容。一个示例如下所示:

     

curl -T /path/to/tiff/image.jpg http://localhost:9998/tika-标题“ X-Tika-OCRLanguage:eng”

     

或针对多种语言:

     

curl -T /path/to/tiff/image.jpg http://localhost:9998/tika-标题“ X-Tika-OCRL语言:eng + fra”

     

覆盖默认配置   使用OCR解析器时,Tika将使用以下默认设置:

     

Tesseract安装路径=“”   语言词典=“ eng”   页面细分模式=“ 1”   最小文件大小= 0   最大文件大小= 2147483647   超时= 120   要更改这些设置,您可以在以下位置修改现有的TesseractOCRConfig.properties文件   tika-parser / src / main / resources / org / apache / tika / parser / ocr,或通过创建自己的和   将其放在类路径中的org / apache / tika / parser / ocr包中。

     

值得注意的是,当使用可执行文件JAR之一(tika-app或tika->服务器JAR)时,执行此操作将需要您在不使用-jar命令的情况下执行它们。例如,某事   分别对应于tika-app或tika-server的以下内容:

我似乎无法找出在python中执行此操作的方法。我在python中的tika的config.py中找不到任何内容。

0 个答案:

没有答案