有没有办法将PDF转换为HTML?我需要文件中的文本,当我尝试PDFtoText库时,我得到了文本,但没有排序,没有任何解析规则。 我注意到,一些PDFtoHTML在线服务可以很好地处理该文件。那么,有什么提示吗? Here is the PDF file我在右栏中只需要一个特定的行。
答案 0 :(得分:0)
尝试从poppler项目中集成PDFtoHTML;这应该支持表识别。
答案 1 :(得分:0)
pdftohtml工作正常:快速,稳定,但html结果充其量是丑陋的。我已经用了很长时间才找到一份有很多工作简历的网站。
然而,它是提取文本内容的好方法。
我会试试scribd API
http://www.scribd.com/developers/api
或谷歌应用文档API。 GOogle在显示和转换pdf文件方面表现非常出色