除了最后一行和“class =”Region“行:
之外,我想抓取以下信息...
<td>7</td>
<td bgcolor="" align="left" style=" width:496px"><a class="xnternal" href="http://www.whitecase.com">White and Case</a></td>
<td bgcolor="" align="left">New York</td>
<td bgcolor="" align="left" class="Region">N/A</td>
<td bgcolor="" align="left">1,863</td>
<td bgcolor="" align="left">565</td>
<td bgcolor="" align="left">1,133</td>
<td bgcolor="" align="left">$160,000</td>
<td bgcolor="" align="center"><a class="xnternal" href="/nlj250/firmDetail/7"> View Profile </a></td></tr><tr class="small" bgcolor="#FFFFFF">
...
我用这个处理程序测试过:
class TestUrlOpen(webapp.RequestHandler):
def get(self):
soup = BeautifulSoup(urllib.urlopen("http://www.ilrg.com/nlj250/"))
link_list = []
for a in soup.findAll('a',href=True):
link_list.append(a["href"])
self.response.out.write("""<p>link_list: %s</p>""" % link_list)
这有效,但它也获得了我不想要的“查看个人资料”链接:
link_list: [u'http://www.ilrg.com/', u'http://www.ilrg.com/', u'http://www.ilrg.com/nations/', u'http://www.ilrg.com/gov.html', ......]
我可以在抓取网站后轻松删除“u'http://www.ilrg.com/”,但如果没有它,我会很高兴有一个列表。做这个的最好方式是什么?感谢。
答案 0 :(得分:3)
我认为这可能就是你要找的东西。 attrs参数可以帮助隔离您想要的部分。
from BeautifulSoup import BeautifulSoup
import urllib
soup = BeautifulSoup(urllib.urlopen("http://www.ilrg.com/nlj250/"))
rows = soup.findAll(name='tr',attrs={'class':'small'})
for row in rows:
number = row.find('td').text
tds = row.findAll(name='td',attrs={'align':'left'})
link = tds[0].find('a')['href']
firm = tds[0].text
office = tds[1].text
attorneys = tds[3].text
partners = tds[4].text
associates = tds[5].text
salary = tds[6].text
print number, firm, office, attorneys, partners, associates, salary
答案 1 :(得分:1)
我会在表格中找到每个tr,其中包含class = listing。您的搜索范围太宽,无法提供您想要的信息。由于HTML具有结构,因此您可以轻松获取表数据。从长远来看,这更容易获得所有href并过滤掉你不想要的那些。 BeautifulSoup有很多关于如何做到这一点的文档。 http://www.crummy.com/software/BeautifulSoup/documentation.html
不是确切的代码:
for tr in soup.findAll('tr'):
data_list = tr.children()
data_list[0].content # 7
data_list[1].content # New York
data_list[2].content # Region <-- ignore this
# etc