html - 有没有办法在Perl中使用Acrobat Reader将多个PDF文件保存为HTML文件？

有没有办法在Perl中使用Acrobat Reader将多个PDF文件保存为HTML文件？

时间：2009-07-27 05:04:47

标签： html perl pdf adobe acrobat

我正在使用Xpdf从PDF文件中提取文本，该文件与-raw选项配合得很好，但现在我们要将PDF文件转换为HTML文件，以便提取HTML格式标记，如粗体＆lt; b＆gt;，斜体＆lt; i＆gt;与文本等。使用-html选项的Xpdf确实有用，我也尝试过使用pdf2html，但是没有像＆lt; sup＆gt;这样的标签发现它可靠。和＆lt; sub＆gt;在哪里失踪。

我们现在使用Acrobat Reader将PDF文件保存为HTML文件，这些文件为我们提供了所有HTML格式标记。

有没有办法在Perl中使用Acrobat Reader将多个PDF文件保存为HTML文件？

谢谢。

1 个答案:

答案 0 :(得分：2)

PDF样式信息完全是任意的，无法以任何有意义的方式可靠地映射到HTML。我运气好的一个策略是使用-xml选项pdftohtml，然后使用LibXML将一些启发式算法应用于输出，并提出合理的HTML近似值原始文件。