我正在尝试使用免费的php中的Libreoffice将pdf转换为doc。
path/to/soffice --infilter="writer_pdf_import" --convert-to doc file.pdf /path/to/test.docx
PS:还有其他更好的解决方案来解析pdf并提取图像而不仅仅是文本,然后将其转换为doc表示。
答案 0 :(得分:4)
嗯,你没有显示错误,所以我不知道为什么不能正常工作。但该命令不是Libreoffice命令。您正在使用soffice命令:
这个使用libreoffice的例子:
path/to/libreoffice --headless --invisible --convert-to doc your_source_file.pdf
注意:此解决方案仅转换没有图像的文本。
备选方案01 :如果 LibreOffice 在您的系统上无效,** Abiword也会以类似的方式运作。
在终端输入以下命令安装 Abiword :
sudo apt-get install abiword
然后执行转换:
abiword --to=doc your_source_file.pdf
替代02 :如果您想继续使用soffice命令,可能您可以使用以下语法:
path/to/soffice --headless --convert-to <TargetFileExtension>:<NameOfFilter> your_source_file.pdf
在您的示例中,将doc
文件的“MS Word 2007 XML”或“{Word 1}}的”Microsoft Word 2007/2010 XML“和”Microsoft Word 2007-2013 XML“用作过滤器:
docx