我运行一个求职网站,我需要在运行php的linux CentOS服务器上将doc,docx和pdf文件转换为HTML。人们将这些文件作为简历提交。到目前为止,我发现PHPDocx非常适合将docx转换为html。但我被困在doc / pdf。当我运行测试时,PDFTOHTML给出错误“颜色不好”。至于doc,我只找到了wvwave,它看起来既复杂又笨重。
有没有人对如何轻松地将doc / pdf转换为HTML有任何想法?
答案 0 :(得分:3)
我唯一能想到的是FPDF。 它用于在PHP中创建PDF文件,但也可以打开PDF文件。 也许你可以将它作为基础并为它开发某种toHTML函数。
它完全免费使用,并且已经有一些扩展。 它可能会帮助你。
编辑: 感谢Pierre对评论的补充:
您可以使用fpdi:http://www.setasign.de/products/pdf-php-solutions/fpdi,但输入的pdf就像一张图片。
到目前为止我还没看过它,但这可能会有所帮助。
答案 1 :(得分:3)
就.doc文件而言,尝试使用OpenOffice / LibreOffice,例如:
lowriter -convert-to html doc_file.doc –
就PDF来说,如果PDF是文本的图形表示,那么你运气不好,你可以做的最好是尝试使用ImageMagick将其转换为图像,如果它是一个应该容易转换的正确文本。
答案 2 :(得分:2)
已经有各种工具可以执行此操作,例如http://dag.wieers.com/home-made/unoconv/,http://www.phpdocx.com/(您已经尝试过)
http://www.phplivedocx.org/2009/08/13/convert-docx-doc-rtf-to-html-in-php/看起来很有希望。
或者,您可以在服务器上安装可移植版本的libreoffice,以允许命令行转换 https://help.libreoffice.org/Common/Starting_the_Software_With_Parameters
我确信那里会有教程(在libreoffice支持区域)
答案 3 :(得分:1)
为了轻松地将pdf转换为html,我建议pdf2htmlEX生成出色的HTML并且足够快速进行运行时转换。您应该首先花些精力为您的系统优化和构建它。项目链接中包含简单的构建方法。