是否有适当的库可用于将PDF转换为HTML或其他可轻松转换为HTML的格式?
我搜索了类似的问题,但没有运气。
我希望能够从PDF中提取文本,可能是图像。我不打算将PDF嵌入HTML中。
答案 0 :(得分:7)
就像我在上面的评论中提到的那样,使用可以从here
下载的工具Able2Extract7将pdf转换为html绝对是可能的。我已经使用这个工具差不多2年了,我很高兴。此工具允许您将PDF转换为Word,Excel,PowerPoint,Publisher, HTML ,OO等。请参阅屏幕截图
Imp Note :此工具不是免费软件。
HTH
答案 1 :(得分:4)
如果您使用的是Linux,请尝试使用pdftohtml:
sudo apt-get install poppler-utils
pdftohtml -enc UTF-8 -noframes infile.pdf outfile.html
开源电子书转换器Calibre还可以将PDF文件转换为HTML,并可在MacOS,Windows和Linux上使用。
答案 2 :(得分:3)
在技术上不可能简单地将PDF文件“转换”为HTML。 PDF格式更像是“画布”,您可以在其中“放置”文本块和图像,而HTML需要CSS或许多表来“放置”块。此外,PDF文件嵌入图像,而HTML只调用其他文件 还有许多其他差异的例子,但实际上,就像要求转换带有文字的图像或视频一样。
然而,您可以从PDF文件中读取,然后使用库或其他高级技术从中提取文本和图像。 .Net有一些库,例如:http://forums.asp.net/post/2167442.aspx
如果您只需要转换一个文件一次,则可以在Illustrator中打开pdf文件,然后将其导出为html。或者您可以选择所有文档(ctrl + a),复制它,然后将其粘贴到Word中,然后将结果保存为html。它将远非完美,但它将是一个开始。
答案 3 :(得分:1)
下载
KeepAlive()
请注意:图片不会被推送到HTML输出。
答案 4 :(得分:1)
将PDF转换为HTML并不困难。有许多在线选项,但可能会将您的数据暴露给第三方。按照以下步骤操作,输出效果很好。
打开the PDF2HTMLEX page。 (您可以按照我提到的后续步骤进行操作,也可以按照页面上的说明操作。)
The package is available for download for Windows from here
从许多可用选项中,我建议下载“pdf2htmlEX-win32-0.14.6-upx-with-poppler-data.zip(pdf2htmlEx.exe随UPX打包)”
下载和取消压缩转换后只需一个cmd命令。
C:\Users\kjk\Downloads\pdf2htmlEX-win32-0.14.6-upx-with-poppler-data>pdf2htmlEX.exe c:\1\abc.pdf
最终命令:
pdf2htmlEX.exe c:\1\abc.pdf
(你当然可以缩短文件夹的名称,但是,我保持它与解压缩下载后的情况相同。我假设您可以将cmd中的目录更改为所需的文件夹,否则Google如何。)
abc.pdf将转换为HTML,并将保存为与您的exe文件相同的文件夹中的abc.html。
答案 5 :(得分:0)
不确定它是否有用,但如果您需要一次性转换,则可以尝试使用此免费在线工具:https://www.readkong.com/
多次使用此网站。它生成的html与pdf原始源相同。没有丑陋和破碎的标记,没有html mashup等等,即使是非常复杂的pdf。
答案 6 :(得分:-1)
这是 Linux msg['test'] = 'The contents of' + str(textfile)
和 pdfgrep
的一种可能性
sed
要正确格式化,您需要使用 sudo apt install pdfgrep
pdfgrep .yourdoc.pdf | sed '/^$/d'| sed -e 's/^%%/<p>%%/'| sed -e 's/^--/<p>--/' | sed -e 's/--$/--<p>/'> yourdoc.html
相应地指定正则表达式。
答案 7 :(得分:-2)
是的,这绝对是可能的。 如果你在ubuntu linux上
apt-get install htmltopdf
然后
htmltopdf myFile.pdf myFile.htm -c -noframes
如果您想查看所有标志的含义,请输入
htmltopdf
如果您不在Linux上,那么您可以使用大量工具来实现这一目标。