docx to txt:
我尝试使用以下代码从docx中提取文本。当docx有图像时,它不起作用。
unzip -p some.docx word/document.xml | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g'
对于 pptx到txt ,我找到了一个提取txt的Perl脚本。当pptx有图像时它不起作用 - 相同。
我想要提取的txt内容,以便在文档中启用搜索选项。因此,跳过图像并将docx文本内容转换为txt的命令/脚本甚至会有所帮助!
答案 0 :(得分:3)
您从(How to extract just plain text from .doc & .docx files? (unix))获取代码的SO问题提供了其他选项
libreoffice
答案几乎可行,可能是在2012年
现在(Libreoffice 5.1)尝试:
libreoffice --convert-to txt text some.docx
或
libreoffice --headless --convert-to txt text some.docx
请确保您没有libreoffice
已经打开。