python beautifulsoup添加额外的结束标记

时间:2010-08-17 17:07:24

标签: python html-parsing beautifulsoup

我正在使用Beautifulsoup解析网站

  request = urllib2.Request(url)
  response = urllib2.urlopen(request)
  soup = BeautifulSoup.BeautifulSoup(response)

我用它来遍历一张桌子。我遇到的问题是BS正在为表添加一个额外的结束标记到不存在的html中,我通过验证:print soup.prettify()。因此,其中一个td标签被排除在表外,我无法选择它。

1 个答案:

答案 0 :(得分:1)

如何直接搜索每个标记而不是尝试遍历表格?

   for td in soup.find("td"):
        ...

当它不在代码中时,自动找到嵌套在表中的tbody标记并不罕见。您可以为其编码,也可以直接跳转到tr或td标记。