请原谅我,如果这被问了十亿次 - 在Python中解析HTML的可用选项是什么,特别是我正在处理一些有很多错误的遗留站点。有没有真正容错的解析器?
答案 0 :(得分:2)
根据我的经验,在许多python xml / html库中,Beautiful Soup非常擅长处理损坏的HTML。
原材料:
<i>This <span title="a">is<br> some <html>invalid</htl %> HTML.
<sarcasm>It's so great!</sarcasm>
解析BeautifulSoup:
<i>This
<span title="a">is
<br /> some
<html>invalid HTML.
<sarcasm>It's so great!
</sarcasm>
</html>
</span>
</i>