Question

是否有适当的库可用于将PDF转换为HTML或其他可轻松转换为HTML的格式？

我搜索了类似的问题，但没有运气。

我希望能够从PDF中提取文本，可能是图像。我不打算将PDF嵌入HTML中。

Answer 1

就像我在上面的评论中提到的那样，使用可以从here

下载的工具Able2Extract7将pdf转换为html绝对是可能的。

我已经使用这个工具差不多2年了，我很高兴。此工具允许您将PDF转换为Word，Excel，PowerPoint，Publisher， HTML ，OO等。请参阅屏幕截图

enter image description here

Imp Note ：此工具不是免费软件。

HTH

Answer 2

如果您使用的是Linux，请尝试使用pdftohtml：

sudo apt-get install poppler-utils
pdftohtml -enc UTF-8 -noframes infile.pdf outfile.html

开源电子书转换器Calibre还可以将PDF文件转换为HTML，并可在MacOS，Windows和Linux上使用。

Answer 3

在技术上不可能简单地将PDF文件“转换”为HTML。 PDF格式更像是“画布”，您可以在其中“放置”文本块和图像，而HTML需要CSS或许多表来“放置”块。此外，PDF文件嵌入图像，而HTML只调用其他文件还有许多其他差异的例子，但实际上，就像要求转换带有文字的图像或视频一样。

然而，您可以从PDF文件中读取，然后使用库或其他高级技术从中提取文本和图像。 .Net有一些库，例如：http://forums.asp.net/post/2167442.aspx

如果您只需要转换一个文件一次，则可以在Illustrator中打开pdf文件，然后将其导出为html。或者您可以选择所有文档（ctrl + a），复制它，然后将其粘贴到Word中，然后将结果保存为html。它将远非完美，但它将是一个开始。

Answer 4

下载

PDFBOX-2.0.3.jar
fontbox-2.0.3.jar
预检2.0.3.jar
xmpbox-2.0.3.jar
PDFBOX工具-2.0.3.jar
PDFBOX调试器-2.0.3.jar

来自http://pdfbox.apache.org/

KeepAlive()

请注意：图片不会被推送到HTML输出。

Answer 5

将PDF转换为HTML并不困难。有许多在线选项，但可能会将您的数据暴露给第三方。按照以下步骤操作，输出效果很好。

打开the PDF2HTMLEX page。（您可以按照我提到的后续步骤进行操作，也可以按照页面上的说明操作。）
The package is available for download for Windows from here

从许多可用选项中，我建议下载“pdf2htmlEX-win32-0.14.6-upx-with-poppler-data.zip（pdf2htmlEx.exe随UPX打包）”
下载和取消压缩转换后只需一个cmd命令。
```
C:\Users\kjk\Downloads\pdf2htmlEX-win32-0.14.6-upx-with-poppler-data>pdf2htmlEX.exe c:\1\abc.pdf
```
最终命令：
```
pdf2htmlEX.exe c:\1\abc.pdf
```
（你当然可以缩短文件夹的名称，但是，我保持它与解压缩下载后的情况相同。我假设您可以将cmd中的目录更改为所需的文件夹，否则Google如何。）

abc.pdf将转换为HTML，并将保存为与您的exe文件相同的文件夹中的abc.html。

Answer 6

不确定它是否有用，但如果您需要一次性转换，则可以尝试使用此免费在线工具：https://www.readkong.com/

多次使用此网站。它生成的html与pdf原始源相同。没有丑陋和破碎的标记，没有html mashup等等，即使是非常复杂的pdf。

Answer 7

这是 Linux msg['test'] = 'The contents of' + str(textfile) 和 pdfgrep 的一种可能性

sed

要正确格式化，您需要使用 sudo apt install pdfgrep pdfgrep .yourdoc.pdf | sed '/^$/d'| sed -e 's/^%%/<p>%%/'| sed -e 's/^--/<p>--/' | sed -e 's/--$/--<p>/'> yourdoc.html 相应地指定正则表达式。

Answer 8

是的，这绝对是可能的。如果你在ubuntu linux上

apt-get install htmltopdf

然后

htmltopdf myFile.pdf myFile.htm -c -noframes

如果您想查看所有标志的含义，请输入

htmltopdf

如果您不在Linux上，那么您可以使用大量工具来实现这一目标。

如何将PDF转换为HTML？

8 个答案: