所以我有一个html页面,它有一个表单,表格里面有一排产品。
我现在已经到了循环表行的地步,在每个循环中我抓住了所有表格单元格。
for tr in t.findAll('tr'):
td = tr.findAll('td')
现在我想从第一个td中获取图像src url。
Html看起来像:
<tr>
<td ...>
<a href ... >
<img ... src="asdf/asdf.jpg" .. >
</a>
</td>
...
</tr>
我该怎么做呢?我一直在考虑正则表达式。
我试过了:
td[0].a.image.src
但这不起作用,因为它没有说'src'属性。
答案 0 :(得分:6)
使用
td[0].a.img['src']
我想你在image
中使用img
只是一个转录错误,但重要的一点是,在BeautifulSoup中,为了访问标记的HTML属性,你使用索引表示法(就像我上面的代码片段中的['src']
),而不是点语法 - 点语法表示法实际上是从树上向下进行的(正如它在上面对两个点所做的那样,每个点都在{{1}之前}和a
)。