Question

docx to txt：

我尝试使用以下代码从docx中提取文本。当docx有图像时，它不起作用。

unzip -p some.docx word/document.xml | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g'

对于 pptx到txt ，我找到了一个提取txt的Perl脚本。当pptx有图像时它不起作用 - 相同。

我想要提取的txt内容，以便在文档中启用搜索选项。因此，跳过图像并将docx文本内容转换为txt的命令/脚本甚至会有所帮助！

Answer 1

您从（How to extract just plain text from .doc & .docx files? (unix)）获取代码的SO问题提供了其他选项 libreoffice答案几乎可行，可能是在2012年现在（Libreoffice 5.1）尝试：

libreoffice --convert-to txt text some.docx

或

libreoffice --headless --convert-to txt text some.docx

请确保您没有libreoffice已经打开。