如何使用BeautifulSoup从输入标记中提取src

时间:2017-12-06 07:29:43

标签: python beautifulsoup web-crawler

我想从输入标签中提取src但是当我得到beautifulsoup结果时,我发现src被忽略了。

for i in soup_image.find_all('input'):
    print(i)

我想得到src的值。 但结果中忽略了该值。 这是原始标签(我在浏览器中检查)。

<input src="https://www1.wi.to/2017/08/11/9c01e43e1652635563826de457b06e25.jpg" type="image" onclick="window.open('http://www.viidii.info/?action=image&amp;url=&amp;src='+encodeURIComponent(this.src));return false;">

这就是我得到的(我在汤中看),

<input onclick="window.open('http://www.viidii.info/?action=image&amp;url=&amp;src='+encodeURIComponent(this.src));return false;" src="http://cdn1.snapgram.co/imgs/2016/08/01/marker-small.png" type="image"/>

我想从第一个输入获取src,因为src可以在浏览器中打开,这与第二个输入中的src不同。实际上,您可以看到它在第二个输入标签中消失。

我爬行后它会被编码吗?我不知道。请帮帮我。

2 个答案:

答案 0 :(得分:1)

如果您想从输入标签获取src值

soup.find('input')['src']

会帮助你获得它。

答案 1 :(得分:-1)

您可以使用get获得src值 input.get('src')