Question

所以我试图使用beautifulsoup来抓取这个词汇表：

http://www.homeplate.kr/korean-baseball-vocabulary

我试着抓住它，就像我做这个橄榄球队的桌子一样：

http://www.bcsfootball.org/

第一种情况：

import urllib2
from bs4 import BeautifulSoup

url = 'http://www.homeplate.kr/korean-baseball-vocabulary'
page = urllib2.urlopen(url)
soup = BeautifulSoup(page.read())

for row in soup('table',{'class': 'tableizer-table'}):
    tds = row('td')
    print tds[0].string, tds[1].string

这只输出表格的一行。

第二种情况：

import urllib2
from bs4 import BeautifulSoup

soup = BeautifulSoup(urllib2.urlopen('http://www.bcsfootball.org').read())

for row in soup('table',{'class': 'mod-data'})[0].tbody('tr'):
    tds = row('td')
    print tds[0].string, tds[1].string

这将输出所有25所学校的排名和学校名称。

这两个例子我做错了什么？

Answer 1

其中只有一人有...[0].tbody('tr')。

在第一个代码段中，您将迭代表（尽管您的变量名称为row），其中（可能）只有一个。

就像BeautifulSoup的例子......出了什么问题？

1 个答案: