答案 0 :(得分:0)
请注意,默认情况下,原始PDF文件中每个按视觉分组的文本块都将转换为结果文档中的文本框。这样可以最大程度地将输出文档与原始PDF文件相似。输出文档看起来不错,但是它将完全由文本框组成,并且可能使在Microsoft Word中进一步编辑文档变得很困难。
请使用流识别模式获取无边界框的输出:
// Load source PDF file
Document doc = new Document( dataDir + "input.pdf");
// Instantiate Doc SaveOptions instance
DocSaveOptions saveOptions = new DocSaveOptions();
// Set output file format as DOCX
saveOptions.setFormat(DocSaveOptions.DocFormat.DocX);
// Set recognition mode
saveOptions.setMode(RecognitionMode.Flow);
// Save resultant DOCX file
doc.save( dataDir + "output.docx", saveOptions);
在此模式下,引擎执行分组和多级分析,以恢复原始文档作者的意图并生成最大程度可编辑的文档。缺点是输出文档的外观可能与原始PDF文件不同。
我们希望这会有所帮助。如果您需要任何进一步的帮助,请随时与我们联系。
PS::我与Aspose一起担任开发人员推广人员。