在PHP中将特定PDF文件转换为HTML

时间:2011-12-07 12:50:06

标签: php html parsing pdf

有没有办法将PDF转换为HTML?我需要文件中的文本,当我尝试PDFtoText库时,我得到了文本,但没有排序,没有任何解析规则。 我注意到,一些PDFtoHTML在线服务可以很好地处理该文件。那么,有什么提示吗? Here is the PDF file我在右栏中只需要一个特定的行。

2 个答案:

答案 0 :(得分:0)

尝试从poppler项目中集成PDFtoHTML;这应该支持表识别。

答案 1 :(得分:0)

pdftohtml工作正常:快速,稳定,但html结果充其量是丑陋的。我已经用了很长时间才找到一份有很多工作简历的网站。

然而,它是提取文本内容的好方法。

我会试试scribd API

http://www.scribd.com/developers/api

或谷歌应用文档API。 GOogle在显示和转换pdf文件方面表现非常出色