我试图将我的linux服务器上的HTML文件转换为TXT文件。事情是转换工作正常,但它保留HTML标签。在转换中删除所有HTML标记的任何命令?
libreoffice4.2 --headless --convert-to txt 2000.html 2000.txt
在GUI中打开它Libreoffice在从HTML保存到TXT时已经剥离了HTML,因此在命令行中也必须有一些东西可以完成。
答案 0 :(得分:1)
你需要告诉LibreOffice它必须使用哪个过滤器来执行转换(参见http://ask.libreoffice.org/en/question/2641/convert-to-command-line-parameter/)
libreoffice4.2 --headless --convert-to txt:text 2000.html
答案 1 :(得分:0)
这里讨论了类似的问题:bash command to covert html page to a text file以及libreoffice的几个备选选项。