我正在处理将PDF文件转换为JAVA应用内的HTML的任务。
经过多次尝试后,我使用了Pdf2Dom(基于Apache PDFBox),它在所有免费解决方案中表现最佳。
问题是输出不必要复杂
示例 :一个pdf,其中包含一个简单的文本行,格式最简单:
The quick brown fox jumps over the lazy dog.
将生成一个html输出,其中包含一个 <文本中每个单词的div ...> 元素,如下所示:
<div class="p" id="p0" style="top:85.44616pt;left:62.4pt;line-height:11.1054pt;font-family:Arial;font-size:9.0pt;width:17.310478pt;">The</div>
<div class="p" id="p1" sty
.........
......... 928pt;">the</div>
<div class="p" id="p7" style="top:85.44616pt;left:222.8357pt;line-height:11.1054pt;font-family:Arial;font-size:9.0pt;width:17.798523pt;">lazy</div>
<div class="p" id="p8" style="top:85.44616pt;left:243.32341pt;line-height:11.1054pt;font-family:Arial;font-size:9.0pt;width:19.451889pt;">dog.</div>
明显的问题 :是否有可能微调&#34; org.fit.pdfdom.PDFDomTree&#34; 那是解析和转换,至少部分摆脱不必要的格式化?
谢谢。