我已经使用pip install tika == 1.22版本在python中下载了tika。该软件包包含以下文件
1.配置
2.检测器
3.语言
4.解析器
5.蒂卡
6.翻译
7.打开包装
我通过以下方式在python程序中使用tika
from tika import parser
parsed = parser.from_file(file, serverEndpoint='http://localhost:9998/rmeta/text')
text = parsed['content']
print(text)
它为我的某些图像提供了正确的输出。但是就文档而言,tika使用默认页面分段为“ 1”。我想在配置中将页面细分更改为“ 6”。我找到了在Java中更改psm的文档。但是我无法为tika找到适用于python的任何东西。下面是java的方法。
作为请求的一部分覆盖配置的语言 不同的请求可能需要使用不同的语言模型进行处理。可以使用X-Tika-OCRLanguage自定义标头为特定请求指定这些内容。一个示例如下所示:
curl -T /path/to/tiff/image.jpg http://localhost:9998/tika-标题“ X-Tika-OCRLanguage:eng”
或针对多种语言:
curl -T /path/to/tiff/image.jpg http://localhost:9998/tika-标题“ X-Tika-OCRL语言:eng + fra”
覆盖默认配置 使用OCR解析器时,Tika将使用以下默认设置:
Tesseract安装路径=“” 语言词典=“ eng” 页面细分模式=“ 1” 最小文件大小= 0 最大文件大小= 2147483647 超时= 120 要更改这些设置,您可以在以下位置修改现有的TesseractOCRConfig.properties文件 tika-parser / src / main / resources / org / apache / tika / parser / ocr,或通过创建自己的和 将其放在类路径中的org / apache / tika / parser / ocr包中。
值得注意的是,当使用可执行文件JAR之一(tika-app或tika->服务器JAR)时,执行此操作将需要您在不使用-jar命令的情况下执行它们。例如,某事 分别对应于tika-app或tika-server的以下内容:
我似乎无法找出在python中执行此操作的方法。我在python中的tika的config.py中找不到任何内容。