我有一个文本文件,即使删除所有的html标签后仍然包含一些撇号的html代码和其他标点符号示例:
It's // It's
我的问题是如何改变所有这些?
我在linux下使用bash脚本来获取html文件
答案 0 :(得分:2)
或者,如果您lynx
将其用作:
lynx -stdin -dump < file.html
以上内容也会删除HTML标记,例如从file.html
<i>It's</i>
<<b>&</b>>
打印
It's <&>
答案 1 :(得分:1)
$ echo 'It's' | python -c 'import xmllib,sys; print(xmllib.XMLParser().translate_references(sys.stdin.read()))'
It's
$ echo 'It's' | perl -MHTML::Entities -pe 'decode_entities($_);'
It's