要将HTML文档转换为unix中的文本文件?

时间:2014-06-06 11:53:48

标签: unix

有人可以建议我使用内置函数从.html文件中提取文本。我已经尝试过html2text选项,但它确实没有用。我将html文档作为a.html,我需要将其转换为纯文本文件。任何帮助都会对我有用..

1 个答案:

答案 0 :(得分:0)

你可以使用lynx ..

lynx -dump http://www.subir.com/lynx.html

输出

                            Lynx source distribution

     * [1]Home page
     * [2]Current development
     * [3]Stable release
     * [4]Mirror sites

   Lynx is the text web browser.

   This is the top level page for the Lynx software distribution site
   hosted by the Internet Software Consortium.
   ....

它也适用于文件。