我一直在寻找一个命令行工具,它可以将html代码转换为网站上显示的文本......所以它等同于在Web浏览器中选择所有内容然后将其粘贴到文本中编辑...
任何人都知道Ubuntu会做什么吗?我正在尝试编写一个脚本来解析一些网页,但是他们不想处理HTML,而只是想解析网站上出现的文本。
谢谢,
丹
答案 0 :(得分:12)
lynx -dump http://example.com/
答案 1 :(得分:7)
如果你已经有html文件:
lynx -dump file.html > file.txt
否则使用@ Ignacio的
答案 2 :(得分:3)
我认为你需要lynx:
lynx -dump http://stackoverflow.com > file