Question

我需要使用BeautifulSoup解析HTML表。该表有2列，其中第2列是数据类型号。我需要找到Column2中所有数字的总数。我能够提取表格数据，但我仍然坚持这一点。有人可以帮忙。

到目前为止，这是代码。

import urllib
from BeautifulSoup import *
url = raw_input('Enter URL- ')
html = urllib.urlopen(url).read()
soup = BeautifulSoup(html)
table = soup.find("table")  
for row in table.findAll('tr'):   
    row_text = list()             
    for item in row.findAll('td'):  
        text = item.text.strip()

Answer 1

由于您没有向网页发布网址，因此我无法对其进行测试，但您可以使用findNext方法查找第二个td代码。然后添加该标记的所有结果。这是一个开始：

total = 0
for row in table.findAll('tr'):
    item = row.find('td'):  
    numberValue = item.findNext('td').get_text()
    total = total + int(numberValue)

您的网址指向家庭作业页面。在查看作业时，根据span标记直接获取数字会更容易。以下是我用来访问标记的内容：

for row in table.findAll("span",attrs={"class":"comments"}):

这应该是一个有用的提示。

使用BeautifulSoup逐列解析HTML表

1 个答案: