如何将PDF转换为HTML?

时间:2011-12-03 18:44:24

标签: html pdf file-conversion

是否有适当的库可用于将PDF转换为HTML或其他可轻松转换为HTML的格式?

我搜索了类似的问题,但没有运气。

我希望能够从PDF中提取文本,可能是图像。我不打算将PDF嵌入HTML中。

8 个答案:

答案 0 :(得分:7)

就像我在上面的评论中提到的那样,使用可以从here

下载的工具Able2Extract7将pdf转换为html绝对是可能的。

我已经使用这个工具差不多2年了,我很高兴。此工具允许您将PDF转换为Word,Excel,PowerPoint,Publisher, HTML ,OO等。请参阅屏幕截图

enter image description here

Imp Note :此工具不是免费软件。

HTH

答案 1 :(得分:4)

如果您使用的是Linux,请尝试使用pdftohtml:

sudo apt-get install poppler-utils
pdftohtml -enc UTF-8 -noframes infile.pdf outfile.html

开源电子书转换器Calibre还可以将PDF文件转换为HTML,并可在MacOS,Windows和Linux上使用。

答案 2 :(得分:3)

在技术上不可能简单地将PDF文件“转换”为HTML。 PDF格式更像是“画布”,您可以在其中“放置”文本块和图像,而HTML需要CSS或许多表来“放置”块。此外,PDF文件嵌入图像,而HTML只调用其他文件 还有许多其他差异的例子,但实际上,就像要求转换带有文字的图像或视频一样。

然而,您可以从PDF文件中读取,然后使用库或其他高级技术从中提取文本和图像。 .Net有一些库,例如:http://forums.asp.net/post/2167442.aspx

如果您只需要转换一个文件一次,则可以在Illustrator中打开pdf文件,然后将其导出为html。或者您可以选择所有文档(ctrl + a),复制它,然后将其粘贴到Word中,然后将结果保存为html。它将远非完美,但它将是一个开始。

答案 3 :(得分:1)

下载

  • PDFBOX-2.0.3.jar
  • fontbox-2.0.3.jar
  • 预检2.0.3.jar
  • xmpbox-2.0.3.jar
  • PDFBOX工具-2.0.3.jar
  • PDFBOX调试器-2.0.3.jar

来自http://pdfbox.apache.org/

KeepAlive()

请注意:图片不会被推送到HTML输出。

答案 4 :(得分:1)

将PDF转换为HTML并不困难。有许多在线选项,但可能会将您的数据暴露给第三方。按照以下步骤操作,输出效果很好。

  1. 打开the PDF2HTMLEX page。 (您可以按照我提到的后续步骤进行操作,也可以按照页面上的说明操作。)

  2. The package is available for download for Windows from here

    从许多可用选项中,我建议下载“pdf2htmlEX-win32-0.14.6-upx-with-poppler-data.zip(pdf2htmlEx.exe随UPX打包)”

  3. 下载和取消压缩转换后只需一个cmd命令。

    C:\Users\kjk\Downloads\pdf2htmlEX-win32-0.14.6-upx-with-poppler-data>pdf2htmlEX.exe c:\1\abc.pdf
    

    最终命令:

    pdf2htmlEX.exe c:\1\abc.pdf
    

    (你当然可以缩短文件夹的名称,但是,我保持它与解压缩下载后的情况相同。我假设您可以将cmd中的目录更改为所需的文件夹,否则Google如何。)

  4. abc.pdf将转换为HTML,并将保存为与您的exe文件相同的文件夹中的abc.html。

答案 5 :(得分:0)

不确定它是否有用,但如果您需要一次性转换,则可以尝试使用此免费在线工具:https://www.readkong.com/

多次使用此网站。它生成的html与pdf原始源相同。没有丑陋和破碎的标记,没有html mashup等等,即使是非常复杂的pdf。

答案 6 :(得分:-1)

这是 Linux msg['test'] = 'The contents of' + str(textfile) pdfgrep 的一种可能性

sed

要正确格式化,您需要使用 sudo apt install pdfgrep pdfgrep .yourdoc.pdf | sed '/^$/d'| sed -e 's/^%%/<p>%%/'| sed -e 's/^--/<p>--/' | sed -e 's/--$/--<p>/'> yourdoc.html 相应地指定正则表达式。

答案 7 :(得分:-2)

是的,这绝对是可能的。 如果你在ubuntu linux上

apt-get install htmltopdf

然后

htmltopdf myFile.pdf myFile.htm -c -noframes

如果您想查看所有标志的含义,请输入

htmltopdf

如果您不在Linux上,那么您可以使用大量工具来实现这一目标。