Question

我试图在路透社的一篇文章中抓住幻灯片中的所有img链接。我想知道是否有人可以向我解释为什么这只能抓住第一张图片而没有其他图片？

以下文章供参考：http://www.reuters.com/article/2014/04/11/us-cocoa-gold-westafrica-insight-idUSBREA3A0DP20140411

links = soup.find_all("div", {'id': 'frame_fd1fade'})
for link in links:
    for img in link.find_all('img', src=True):
        img = img["src"].split("src=")[-1]
        print img

Answer 1

在文章的页面来源中，只有一个div与id="frame_fd1fade"。在其中，有一个img标记，其中包含第一张图片。您必须查看页面用于更改图片的机制，并以某种方式使用它来获取图片。

尝试运行此操作以查看源中有frame_fd1fade个实例：

import urllib
import re

f = urllib.urlopen("http://www.reuters.com/article/2014/04/11/us-cocoa-gold-westafrica-insight-idUSBREA3A0DP20140411")
cnt = 0
for line in f:
  if re.search("frame_fd1fade", line):
    cnt += 1
print "cnt =", cnt

使用美丽的汤刮多个图像

1 个答案: