Python,BeautifulSoup或LXML - 使用CSS标记从HTML解析图像URL

时间:2010-11-23 16:58:53

标签: python image parsing beautifulsoup lxml

我已经搜索过高低,以获得有关BeautifulSoup或LXML如何工作的合理解释。当然,他们的文档很棒,但对于像我这样的人,一个python /编程新手,很难破译我在寻找的东西。

无论如何,作为我的第一个项目,我使用Python来解析帖子链接的RSS提要 - 我用Feedparser完成了这个。我的计划是刮掉每个帖子的图像。但是对于我的生活,我无法弄清楚如何让BeautifulSoup或LXML做我想做的事!我花了几个小时阅读文档和谷歌搜索无济于事,所以我在这里。以下是Big Picture(我的scrapee)中的一行。

<div class="bpBoth"><a name="photo2"></a><img src="http://inapcache.boston.com/universal/site_graphics/blogs/bigpicture/shanghaifire_11_22/s02_25947507.jpg" class="bpImage" style="height:1393px;width:990px" /><br/><div onclick="this.style.display='none'" class="noimghide" style="margin-top:-1393px;height:1393px;width:990px"></div><div class="bpCaption"><div class="photoNum"><a href="#photo2">2</a></div>In this photo released by China's Xinhua news agency, spectators watch an apartment building on fire in the downtown area of Shanghai on Monday Nov. 15, 2010. (AP Photo/Xinhua) <a href="#photo2">#</a><div class="cf"></div></div></div>

所以,根据我对文档的理解,我应该能够通过以下内容:

soup.find("a", { "class" : "bpImage" })

使用该css类查找所有实例。好吧,它没有返回任何东西。我确信我忽略了一些微不足道的事情,所以我非常感谢你的耐心。

非常感谢您的回复!

对于未来的googlers,我将包含我的feedparser代码:

#! /usr/bin/python

# RSS Feed Parser for the Big Picture Blog

# Import applicable libraries

import feedparser

#Import Feed for Parsing
d = feedparser.parse("http://feeds.boston.com/boston/bigpicture/index")

# Print feed name
print d['feed']['title']

# Determine number of posts and set range maximum
posts = len(d['entries'])

# Collect Post URLs
pointer = 0
while pointer < posts:
    e = d.entries[pointer]
    print e.link
    pointer = pointer + 1

3 个答案:

答案 0 :(得分:3)

使用lxml,你可能会这样做:

import feedparser
import lxml.html as lh
import urllib2

#Import Feed for Parsing
d = feedparser.parse("http://feeds.boston.com/boston/bigpicture/index")

# Print feed name
print d['feed']['title']

# Determine number of posts and set range maximum
posts = len(d['entries'])

# Collect Post URLs
for post in d['entries']:
    link=post['link']
    print('Parsing {0}'.format(link))
    doc=lh.parse(urllib2.urlopen(link))
    imgs=doc.xpath('//img[@class="bpImage"]')
    for img in imgs:
        print(img.attrib['src'])

答案 1 :(得分:1)

您发布的代码会查找a类的所有bpImage元素。但是,您的示例在bpImage元素上有img类,而不是a。你只需要这样做:

soup.find("img", { "class" : "bpImage" })

答案 2 :(得分:1)

使用pyparsing搜索标签非常直观:

from pyparsing import makeHTMLTags, withAttribute

imgTag,notused = makeHTMLTags('img')

# only retrieve <img> tags with class='bpImage'
imgTag.setParseAction(withAttribute(**{'class':'bpImage'}))

for img in imgTag.searchString(html):
    print img.src