我尝试过poppler,pdftohtml,xpdf的pdftohtml和pdftohtmlex。如果我尝试完全重新创建HTML格式的PDF,那么一切都做得很好。但是结果是,当您滚动时,带有模拟“页面”的复杂HTML文档以及每行文本都在其自己的绝对位置div中,并且所有图像均呈现为单个大页面背景图像。
如果您想从HTML查看PDF,这看起来很棒,但是我正在寻找更“原生”的HTML转换。理想情况下,可以将文本段落放入<p>
标签中,将单个图像放入<img>
标签中。我已经在上述各种工具中尝试了各种选项,但它们似乎都生成背景图像,而不是单个图像。