Question

我有一个文本文件，即使删除所有的html标签后仍然包含一些撇号的html代码和其他标点符号示例：

  It&#039;s  // It's

我的问题是如何改变所有这些？

我在linux下使用bash脚本来获取html文件

Answer 1

或者，如果您lynx将其用作：

lynx -stdin -dump < file.html

以上内容也会删除HTML标记，例如从file.html

中删除

<i>It&#039;s</i>
&lt;<b>&amp;</b>&#62;

打印

   It's <&>

Answer 2

$ echo 'It&#039;s' | python -c 'import xmllib,sys; print(xmllib.XMLParser().translate_references(sys.stdin.read()))'
It's

$ echo 'It&#039;s' | perl -MHTML::Entities -pe 'decode_entities($_);'
It's