Question

我正在尝试在BeautifulSoup中抓取一个网页。我已经成功地将表格中的单元格拉出来了：

 for row in soup.findAll("tr"):
     print "=========================================="
     cells = row.findAll("td")
     if len(cells) > 0:
         print cells[1].contents[3]

我想要的单元格如下：

<div class="detName"> <a href="/path/filename" class="detLink" title="Details for filename">Filename</a>
</div>

我想拉出href =“...”部分来获取“/ path / filename”但我无法弄清楚如何做到这一点。

Answer 1

该单元格中只有一个内容，div（或者可能是div和一些尾部文本），因此contents[3]肯定不起作用。

你可能想要的是：

if len(cells) > 1:
    a = cells[1].find('a')
    href = a['href']

使用BeautifulSoup查找字段

1 个答案: