我正在使用Beautifulsoup解析网站
request = urllib2.Request(url)
response = urllib2.urlopen(request)
soup = BeautifulSoup.BeautifulSoup(response)
我用它来遍历一张桌子。我遇到的问题是BS正在为表添加一个额外的结束标记到不存在的html中,我通过验证:print soup.prettify()。因此,其中一个td标签被排除在表外,我无法选择它。
答案 0 :(得分:1)
如何直接搜索每个标记而不是尝试遍历表格?
for td in soup.find("td"):
...
当它不在代码中时,自动找到嵌套在表中的tbody标记并不罕见。您可以为其编码,也可以直接跳转到tr或td标记。