Question

我正在处理将PDF文件转换为JAVA应用内的HTML的任务。

经过多次尝试后，我使用了Pdf2Dom（基于Apache PDFBox），它在所有免费解决方案中表现最佳。

问题是输出不必要复杂

示例：一个pdf，其中包含一个简单的文本行，格式最简单：

The quick brown fox jumps over the lazy dog.

将生成一个html输出，其中包含一个 ＆lt;文本中每个单词的div ...＆gt; 元素，如下所示：

<div class="p" id="p0" style="top:85.44616pt;left:62.4pt;line-height:11.1054pt;font-family:Arial;font-size:9.0pt;width:17.310478pt;">The</div>
<div class="p" id="p1" sty
.........
.........                                                                                                                       928pt;">the</div>
<div class="p" id="p7" style="top:85.44616pt;left:222.8357pt;line-height:11.1054pt;font-family:Arial;font-size:9.0pt;width:17.798523pt;">lazy</div>
<div class="p" id="p8" style="top:85.44616pt;left:243.32341pt;line-height:11.1054pt;font-family:Arial;font-size:9.0pt;width:19.451889pt;">dog.</div>

明显的问题 ：是否有可能微调＆＃34; org.fit.pdfdom.PDFDomTree＆＃34; 那是解析和转换，至少部分摆脱不必要的格式化？

谢谢。

在JAVA应用程序中使用pdf2dom将PDF转换为HTML - 任何简化输出的方法？

0 个答案: