帮助使用BeautifulSoup从表格单元格获取图像src

时间:2010-07-31 02:22:30

标签: python beautifulsoup

所以我有一个html页面,它有一个表单,表格里面有一排产品。

我现在已经到了循环表行的地步,在每个循环中我抓住了所有表格单元格。

for tr in t.findAll('tr'):
    td = tr.findAll('td')

现在我想从第一个td中获取图像src url。

Html看起来像:

<tr>
  <td ...>
    <a href ... >
       <img ... src="asdf/asdf.jpg" .. >
    </a>
  </td>

  ...
</tr>

我该怎么做呢?我一直在考虑正则表达式。

我试过了:

td[0].a.image.src但这不起作用,因为它没有说'src'属性。

1 个答案:

答案 0 :(得分:6)

使用

td[0].a.img['src']

我想你在image中使用img只是一个转录错误,但重要的一点是,在BeautifulSoup中,为了访问标记的HTML属性,你使用索引表示法(就像我上面的代码片段中的['src']),而不是点语法 - 点语法表示法实际上是从树上向下进行的(正如它在上面对两个点所做的​​那样,每个点都在{{1}之前}和a)。