我正在尝试在BeautifulSoup中抓取一个网页。我已经成功地将表格中的单元格拉出来了:
for row in soup.findAll("tr"):
print "=========================================="
cells = row.findAll("td")
if len(cells) > 0:
print cells[1].contents[3]
我想要的单元格如下:
<div class="detName"> <a href="/path/filename" class="detLink" title="Details for filename">Filename</a>
</div>
我想拉出href =“...”部分来获取“/ path / filename”但我无法弄清楚如何做到这一点。
答案 0 :(得分:1)
该单元格中只有一个内容,div
(或者可能是div
和一些尾部文本),因此contents[3]
肯定不起作用。
你可能想要的是:
if len(cells) > 1:
a = cells[1].find('a')
href = a['href']