如何解析终端中的html文本文件?

时间:2017-12-02 21:05:45

标签: html linux bash gnome-terminal

我有一个文本文件,即使删除所有的html标签后仍然包含一些撇号的html代码和其他标点符号示例:

  It's  // It's 

我的问题是如何改变所有这些?

我在linux下使用bash脚本来获取html文件

2 个答案:

答案 0 :(得分:2)

或者,如果您lynx将其用作:

lynx -stdin -dump < file.html

以上内容也会删除HTML标记,例如从file.html

中删除
<i>It&#039;s</i>
&lt;<b>&amp;</b>&#62;

打印

   It's <&>

答案 1 :(得分:1)

使用Python:

$ echo 'It&#039;s' | python -c 'import xmllib,sys; print(xmllib.XMLParser().translate_references(sys.stdin.read()))'
It's

使用Perl:

$ echo 'It&#039;s' | perl -MHTML::Entities -pe 'decode_entities($_);'
It's