有没有办法用标准方法从不同的新闻来源阅读徽标图像?

时间:2014-01-25 08:36:05

标签: python rss html-parsing beautifulsoup

我目前正在开发一个新闻重新发布的网站,该网站从rss feed中读取新闻。问题是当我试图从不同的新闻机构获取每个网站不同的新闻标志图像时。目前我正在为200个网络使用大约200个IF命令 这是我使用python的代码:

try:
    img = soup.body.find('div', {'class': 'image-wrap'}).img.attrs['src']
    Image.open(cStringIO.StringIO(urllib2.urlopen(str(img)).read()))
except:
    try:
        img = soup.body.find('div', {'id': 'post-body'}).a.attrs['href']
        Image.open(cStringIO.StringIO(urllib2.urlopen(str(img)).read()))
    except:
        try:
            img = soup.body.find('div', {'class': 'image'}).img.attrs['src']
        except:
            img = soup.head.find('meta', {'property': 'og:image'}).attrs['content']
            if "breakingnews5.jpg" in img:
                img = ""

是否可以在数据库中存储有关每个网页的信息并使用它来提取图像?

1 个答案:

答案 0 :(得分:0)

如果您使用的是大约200个服务的固定列表,我建议您使用如此单独的代码构建字典或图像,以便您手动查看Feed并选择徽标图像并将其保存到徽标目录中一个固定的命名惯例。