我试图在路透社的一篇文章中抓住幻灯片中的所有img链接。我想知道是否有人可以向我解释为什么这只能抓住第一张图片而没有其他图片?
以下文章供参考:http://www.reuters.com/article/2014/04/11/us-cocoa-gold-westafrica-insight-idUSBREA3A0DP20140411
links = soup.find_all("div", {'id': 'frame_fd1fade'})
for link in links:
for img in link.find_all('img', src=True):
img = img["src"].split("src=")[-1]
print img
答案 0 :(得分:0)
在文章的页面来源中,只有一个div
与id="frame_fd1fade"
。在其中,有一个img
标记,其中包含第一张图片。您必须查看页面用于更改图片的机制,并以某种方式使用它来获取图片。
尝试运行此操作以查看源中有frame_fd1fade
个实例:
import urllib
import re
f = urllib.urlopen("http://www.reuters.com/article/2014/04/11/us-cocoa-gold-westafrica-insight-idUSBREA3A0DP20140411")
cnt = 0
for line in f:
if re.search("frame_fd1fade", line):
cnt += 1
print "cnt =", cnt