在Python中可靠地解析HTML

时间:2013-10-22 05:22:49

标签: python html-parsing

请原谅我,如果这被问了十亿次 - 在Python中解析HTML的可用选项是什么,特别是我正在处理一些有很多错误的遗留站点。有没有真正容错的解析器?

1 个答案:

答案 0 :(得分:2)

根据我的经验,在许多python xml / html库中,Beautiful Soup非常擅长处理损坏的HTML。

原材料:

<i>This <span title="a">is<br> some <html>invalid</htl %> HTML. 
<sarcasm>It's so great!</sarcasm>

解析BeautifulSoup:

 <i>This 
  <span title="a">is
   <br /> some 
   <html>invalid HTML. 
    <sarcasm>It's so great!
    </sarcasm>
   </html>
  </span>
 </i>