linux中是否有一种简单的方法可以从命令行中删除文本网站?

时间:2010-02-24 22:12:28

标签: html linux bash parsing

我一直在寻找一个命令行工具,它可以将html代码转换为网站上显示的文本......所以它等同于在Web浏览器中选择所有内容然后将其粘贴到文本中编辑...

任何人都知道Ubuntu会做什么吗?我正在尝试编写一个脚本来解析一些网页,但是他们不想处理HTML,而只是想解析网站上出现的文本。

谢谢,

3 个答案:

答案 0 :(得分:12)

lynx -dump http://example.com/

答案 1 :(得分:7)

如果你已经有html文件:

lynx -dump file.html > file.txt

否则使用@ Ignacio的

答案 2 :(得分:3)

我认为你需要lynx:

lynx -dump http://stackoverflow.com > file