有没有办法在Perl中使用Acrobat Reader将多个PDF文件保存为HTML文件?

时间:2009-07-27 05:04:47

标签: html perl pdf adobe acrobat

我正在使用Xpdf从PDF文件中提取文本,该文件与-raw选项配合得很好,但现在我们要将PDF文件转换为HTML文件,以便提取HTML格式标记,如粗体< b>,斜体< i>与文本等。使用-html选项的Xpdf确实有用,我也尝试过使用pdf2html,但是没有像< sup>这样的标签发现它可靠。和< sub>在哪里失踪。

我们现在使用Acrobat Reader将PDF文件保存为HTML文件,这些文件为我们提供了所有HTML格式标记。

有没有办法在Perl中使用Acrobat Reader将多个PDF文件保存为HTML文件?

谢谢。

1 个答案:

答案 0 :(得分:2)

PDF样式信息完全是任意的,无法以任何有意义的方式可靠地映射到HTML。我运气好的一个策略是使用-xml选项pdftohtml,然后使用LibXML将一些启发式算法应用于输出,并提出合理的HTML近似值原始文件。