有人可以建议我使用内置函数从.html文件中提取文本。我已经尝试过html2text选项,但它确实没有用。我将html文档作为a.html,我需要将其转换为纯文本文件。任何帮助都会对我有用..
答案 0 :(得分:0)
你可以使用lynx ..
lynx -dump http://www.subir.com/lynx.html
输出
Lynx source distribution
* [1]Home page
* [2]Current development
* [3]Stable release
* [4]Mirror sites
Lynx is the text web browser.
This is the top level page for the Lynx software distribution site
hosted by the Internet Software Consortium.
....
它也适用于文件。