Question

我正在使用Beautifulsoup解析网站

  request = urllib2.Request(url)
  response = urllib2.urlopen(request)
  soup = BeautifulSoup.BeautifulSoup(response)

我用它来遍历一张桌子。我遇到的问题是BS正在为表添加一个额外的结束标记到不存在的html中，我通过验证：print soup.prettify（）。因此，其中一个td标签被排除在表外，我无法选择它。

Answer 1

如何直接搜索每个标记而不是尝试遍历表格？

   for td in soup.find("td"):
        ...

当它不在代码中时，自动找到嵌套在表中的tbody标记并不罕见。您可以为其编码，也可以直接跳转到tr或td标记。