使用BeautifulSoup查找字段

时间:2013-11-05 20:21:04

标签: python beautifulsoup

我正在尝试在BeautifulSoup中抓取一个网页。我已经成功地将表格中的单元格拉出来了:

 for row in soup.findAll("tr"):
     print "=========================================="
     cells = row.findAll("td")
     if len(cells) > 0:
         print cells[1].contents[3]

我想要的单元格如下:

<div class="detName"> <a href="/path/filename" class="detLink" title="Details for filename">Filename</a>
</div>

我想拉出href =“...”部分来获取“/ path / filename”但我无法弄清楚如何做到这一点。

1 个答案:

答案 0 :(得分:1)

该单元格中只有一个内容,div(或者可能是div和一些尾部文本),因此contents[3]肯定不起作用。

你可能想要的是:

if len(cells) > 1:
    a = cells[1].find('a')
    href = a['href']