是否可以在不卸载tesseract的情况下禁用Tika中的OCR模式

时间:2019-05-21 06:56:50

标签: java ocr tesseract apache-tika

我正在为我的项目使用tika-app jar,并且有一种方法可以在tika中禁用tesseract OCR。必须保留两件事:

1.tesseract无法卸载

2.tika.xml无法编辑,因为现成使用了tika-app.jar

是否可以通过设置context或parser属性以禁用OCR来在 java 代码中设置配置?

我尝试了以下代码,但OCR在解析时仍从图像文件中提取文本。

            PDFParserConfig pdfConfig = new PDFParserConfig();
            pdfConfig.setOcrStrategy(OCR_STRATEGY.NO_OCR);
            context.set(PDFParserConfig.class, pdfConfig);```

1 个答案:

答案 0 :(得分:2)

<?xml version="1.0" encoding="UTF-8"?>
<properties>
    <parsers>
        <parser class="org.apache.tika.parser.DefaultParser">
       <parser-exclude class="org.apache.tika.parser.ocr.TesseractOCRParser"/>
        </parser>
    </parsers>
</properties>