我正在使用Xpdf从PDF文件中提取文本,该文件与-raw
选项配合得很好,但现在我们要将PDF文件转换为HTML文件,以便提取HTML格式标记,如粗体< b>,斜体< i>与文本等。使用-html
选项的Xpdf确实有用,我也尝试过使用pdf2html,但是没有像< sup>这样的标签发现它可靠。和< sub>在哪里失踪。
我们现在使用Acrobat Reader将PDF文件保存为HTML文件,这些文件为我们提供了所有HTML格式标记。
有没有办法在Perl中使用Acrobat Reader将多个PDF文件保存为HTML文件?
谢谢。
答案 0 :(得分:2)
PDF样式信息完全是任意的,无法以任何有意义的方式可靠地映射到HTML。我运气好的一个策略是使用-xml
选项pdftohtml
,然后使用LibXML将一些启发式算法应用于输出,并提出合理的HTML近似值原始文件。