如何将PDF转换为HTML?

时间:2009-10-28 17:52:55

标签: html pdf pdf-scraping

使用任何通用语言将PDF转换为HTML有哪些好的库?

9 个答案:

答案 0 :(得分:5)

apache的PDFBox具有html提取功能。 http://pdfbox.apache.org/

答案 1 :(得分:3)

如果您正在使用Windows机器,我认为Amyuni也有一个库。他们的PDF文档转换器可以作为DLL访问,可以在Visual Studio支持的语言中广泛使用,并可以转换为RTF,TML,EXCEL,JPEG和TIFF。

答案 2 :(得分:1)

<强> http://www.lowagie.com/iText/ Java和C#的开源库

答案 3 :(得分:1)

pdftohtml程序将pdf转换为html和xml,并保留文本的位置信息,这有助于抓取表格。

它似乎基于xpdf库,也有一个Windows二进制文件。

答案 4 :(得分:1)

在linux install pdftohtml中 - 对于文件夹中所有文件的批量转换,请使用:

ls *.pdf | xargs -I{} pdftohtml {}

这将创建包含原始文档中所有引用和图像的html网站。每个页面都在一个单独的html文件中。使用常见的系统文件搜索将项目文档转换为按短语搜索文件非常有用。

答案 5 :(得分:1)

您可以在Python中使用名为PDFMiner的模块。

您可以这样安装:

pip install pdfminer

按以下方式使用此模块:

pdf2txt.py -o output.html -t html file.pdf

链接到模块: https://pypi.org/project/pdfminer/

答案 6 :(得分:0)

在Perl中,您可以使用SWISH::Filter插件SWISH::Filters::Pdf2HTML。 (它需要xpdf package。)

反过来(HTML到PDF),请参阅this question

答案 7 :(得分:0)

如果您正在寻找将PDF转换为HTML一次或两次的方法,那么我建议Adobe Online Conversion

如果它是您之后的API,那么http://www.pdfonline.com/会有一个适合您需求的SDK。

如果它是您之后的库,请告诉我们您更喜欢哪种服务器端语言。

答案 8 :(得分:0)

鉴于原始问题的模糊性,我将继续提供一个可以使用任何可以执行命令行应用程序的语言的解决方案。虽然设置可能有点棘手,但OpenOffice可以在服务器上以无头模式运行,并且在jodconverter的帮助下,可以将任何文件格式转换为任何其他文件格式(以及,openoffice可以处理的任何格式转换,即)。

以下是一些有助于设置的链接: