Question

所以我有一个html页面，它有一个表单，表格里面有一排产品。

我现在已经到了循环表行的地步，在每个循环中我抓住了所有表格单元格。

for tr in t.findAll('tr'):
    td = tr.findAll('td')

现在我想从第一个td中获取图像src url。

Html看起来像：

<tr>
  <td ...>
    <a href ... >
       <img ... src="asdf/asdf.jpg" .. >
    </a>
  </td>

  ...
</tr>

我该怎么做呢？我一直在考虑正则表达式。

我试过了：

td[0].a.image.src但这不起作用，因为它没有说'src'属性。

Answer 1

使用

td[0].a.img['src']

我想你在image中使用img只是一个转录错误，但重要的一点是，在BeautifulSoup中，为了访问标记的HTML属性，你使用索引表示法（就像我上面的代码片段中的['src']），而不是点语法 - 点语法表示法实际上是从树上向下进行的（正如它在上面对两个点所做的那样，每个点都在{{1}之前}和a）。

帮助使用BeautifulSoup从表格单元格获取图像src

1 个答案: