我正在尝试使用xmllint解析html5,它在某些标签上生成错误。为了确保它是有效的,我先将输出通过整洁地进行了管道传输,但是生成了相同的错误。我只想提取文本。有什么方法可以读取这些无效标签?
命令:
echo $s | tidy -o | xmllint --html --xpath 'the xpath to be parsed'
错误输出:
-:178: HTML parser error : Tag svg invalid "21">
xmllint版本:
xmllint: using libxml version 20904