所以我试图使用beautifulsoup来抓取这个词汇表:
http://www.homeplate.kr/korean-baseball-vocabulary
我试着抓住它,就像我做这个橄榄球队的桌子一样:
第一种情况:
import urllib2
from bs4 import BeautifulSoup
url = 'http://www.homeplate.kr/korean-baseball-vocabulary'
page = urllib2.urlopen(url)
soup = BeautifulSoup(page.read())
for row in soup('table',{'class': 'tableizer-table'}):
tds = row('td')
print tds[0].string, tds[1].string
这只输出表格的一行。
第二种情况:
import urllib2
from bs4 import BeautifulSoup
soup = BeautifulSoup(urllib2.urlopen('http://www.bcsfootball.org').read())
for row in soup('table',{'class': 'mod-data'})[0].tbody('tr'):
tds = row('td')
print tds[0].string, tds[1].string
这将输出所有25所学校的排名和学校名称。
这两个例子我做错了什么?
答案 0 :(得分:1)
其中只有一人有...[0].tbody('tr')
。
在第一个代码段中,您将迭代表(尽管您的变量名称为row
),其中(可能)只有一个。