在JAVA应用程序中使用pdf2dom将PDF转换为HTML - 任何简化输出的方法?

时间:2018-02-02 16:16:02

标签: java html apache pdf pdfbox

我正在处理将PDF文件转换为JAVA应用内的HTML的任务。

经过多次尝试后,我使用了Pdf2Dom(基于Apache PDFBox),它在所有免费解决方案中表现最佳。

问题是输出不必要复杂

示例 :一个pdf,其中包含一个简单的文本行,格式最简单:

The quick brown fox jumps over the lazy dog.

将生成一个html输出,其中包含一个 <文本中每个单词的div ...> 元素,如下所示:

<div class="p" id="p0" style="top:85.44616pt;left:62.4pt;line-height:11.1054pt;font-family:Arial;font-size:9.0pt;width:17.310478pt;">The</div>
<div class="p" id="p1" sty
.........
.........                                                                                                                       928pt;">the</div>
<div class="p" id="p7" style="top:85.44616pt;left:222.8357pt;line-height:11.1054pt;font-family:Arial;font-size:9.0pt;width:17.798523pt;">lazy</div>
<div class="p" id="p8" style="top:85.44616pt;left:243.32341pt;line-height:11.1054pt;font-family:Arial;font-size:9.0pt;width:19.451889pt;">dog.</div>

明显的问题 :是否有可能微调&#34; org.fit.pdfdom.PDFDomTree&#34; 那是解析和转换,至少部分摆脱不必要的格式化?

谢谢。

0 个答案:

没有答案