FineReader Engine Java SDK。从PDF转换为DOCX期间如何忽略图片

时间:2019-08-20 13:02:56

标签: java abbyy finereader

我需要找到一种在转换为DOCX文件时忽略PDF文档中图片和照片的方法。

我正在创建FineReader Engine的实例:

IEngine engine = Engine.InitializeEngine(
engineConfig.getDllFolder(), engineConfig.getCustomerProjectId(),
engineConfig.getLicensePath(), engineConfig.getLicensePassword(), "", "", false);

之后,我要转换文档:

IFRDocument document = engine.CreateFRDocument();
document.AddImageFile(file.getAbsolutePath(), null, null);
document.Process(null);
String exportPath = FileUtil.prepareExportPath(file, resultFolder);
document.Export(exportPath, FileExportFormatEnum.FEF_DOCX, null);

结果,它将转换原始pdf文档中的所有图像。

3 个答案:

答案 0 :(得分:1)

我对PDF到DOCX的转换不是很熟悉,但是我认为您可以根据需要尝试使用自定义配置文件。

在代码中的某个时刻,您应该创建一个Engine对象,然后创建一个Document对象(或IFRDocument对象,具体取决于您的应用程序)。在将文档提供给引擎进行处理之前,添加以下行:

engine.LoadProfile(PROFILE_FILENAME);

然后使用FRE安装随附的文档中“使用配置文件”部分中描述的一些处理参数创建文件。 不要忘记添加文件:

... some params under other sections

[PageAnalysisParams]
DetectText = TRUE       --> force text detection
DetectPictures = FALSE  --> ignore pictures
... other params under PageAnalysisParams

... some params under other sections

对于条形码等,它的工作方式相同。但是在此文件中添加或删除内容时,请记住对结果进行基准测试,因为这可能会改变处理速度和结果的整体质量。

答案 1 :(得分:1)

将pdf导出到docx时,应使用一些导出参数。这样,您可以使用IRTFExportParams。您可以获取此对象:

IRTFExportParams irtfExportParams = engine.CreateRTFExportParams();

,您可以在此处设置writePicture属性,如下所示:

irtfExportParams.setWritePictures(false);

有:IEngine engine是主界面。我想您知道如何初始化它;)))

还必须在方法document.Process()属性中进行设置。 (文档来自IFRDocument document)。 在Process()方法中,您必须输入IDocumentProcessingParams iDocumentProcessingParams。该对象具有方法setPageProcessingParams(),您必须在其中放置IPageProcessingParams iPageProcessingParams参数(可以通过engine.CreatePageProcessingParams()获取此对象)。该对象具有方法:

iPageProcessingParams.setPerformAnalysis(true);
iPageProcessingParams.setPageAnalysisParams(iPageAnalysisParams);

在第一种设置为true的方法中, 在第二个中,我们给出iPageAnalysisParamsIPageAnalysisParams iPageAnalysisParams = engine.CreatePageAnalysisParams())。

最后,您必须像这样在setDetectPictures(false)的{​​{1}}方法中设置错误的值。就是这样:)

当您要导出文档时,应像下面这样放置此参数:

iPageAnalysisParams

我希望我的回答对大家有帮助)))

答案 2 :(得分:0)

PDF输入页面包含哪些内容? MS Word会有什么期望? 如果您附上输入PDF文件的示例和MS Word格式的所需结果的示例,那将是很好的。 然后给出有用的建议会容易得多。