从libreoffice命令行转换中剥离HTML标记

时间:2014-07-18 15:34:41

标签: command-line libreoffice

我试图将我的linux服务器上的HTML文件转换为TXT文件。事情是转换工作正常,但它保留HTML标签。在转换中删除所有HTML标记的任何命令?

libreoffice4.2 --headless --convert-to txt 2000.html 2000.txt

在GUI中打开它Libreoffice在从HTML保存到TXT时已经剥离了HTML,因此在命令行中也必须有一些东西可以完成。

2 个答案:

答案 0 :(得分:1)

你需要告诉LibreOffice它必须使用哪个过滤器来执行转换(参见http://ask.libreoffice.org/en/question/2641/convert-to-command-line-parameter/

libreoffice4.2 --headless --convert-to txt:text 2000.html

答案 1 :(得分:0)

这里讨论了类似的问题:bash command to covert html page to a text file以及libreoffice的几个备选选项。