使用BeautifulSoup逐列解析HTML表

时间:2015-11-09 11:51:44

标签: python-2.7 beautifulsoup

我需要使用BeautifulSoup解析HTML表。该表有2列,其中第2列是数据类型号。我需要找到Column2中所有数字的总数。我能够提取表格数据,但我仍然坚持这一点。有人可以帮忙。

到目前为止,这是代码。

import urllib
from BeautifulSoup import *
url = raw_input('Enter URL- ')
html = urllib.urlopen(url).read()
soup = BeautifulSoup(html)
table = soup.find("table")  
for row in table.findAll('tr'):   
    row_text = list()             
    for item in row.findAll('td'):  
        text = item.text.strip()  

1 个答案:

答案 0 :(得分:0)

由于您没有向网页发布网址,因此我无法对其进行测试,但您可以使用findNext方法查找第二个td代码。然后添加该标记的所有结果。这是一个开始:

total = 0
for row in table.findAll('tr'):
    item = row.find('td'):  
    numberValue = item.findNext('td').get_text()
    total = total + int(numberValue)  

您的网址指向家庭作业页面。在查看作业时,根据span标记直接获取数字会更容易。以下是我用来访问标记的内容:

for row in table.findAll("span",attrs={"class":"comments"}):

这应该是一个有用的提示。