Question

我需要帮助修复此lxml语句以解压缩： http://www.etc../1tru.jpg链接在头部 http://www.yfrog.com/9d1truj

#This doesn't work!

# <link rel="image_src" href="http://img337.yfrog.com/img337/5023/1tru.jpg" />
def extract_imageurl(self, doc):
    try:
        self.url, = doc.xpath('//head//link[@rel="image_src"][1]/@href')
    except ValueError:
        self.url = "Error"

感谢

Answer 1

In [32]: doc.xpath('//head/link[@rel="image_src"]/@href')[0]
Out[32]: 'http://img337.yfrog.com/img337/5023/1tru.jpg'

注意xpath返回节点列表：

In [25]: doc.xpath('//head/link')
Out[25]: [<Element link at 9c94c5c>, <Element link at 9c94b6c>]

指定[@rel="image_src"]后，列表中只有一个节点。 [0]电话后，您可以使用xpath 选择节点。

In [29]: doc.xpath('//head/link[@rel="image_src"]')[0] Out[29]: <Element link at 9c94c5c>

import lxml.html as lh import urllib2 url=r'http://www.yfrog.com/9d1truj' doc=lh.parse(urllib2.urlopen(url)) link=doc.xpath('//head/link[@rel="image_src"]/@href')[0] print(link) # http://img337.yfrog.com/img337/5023/1tru.jpg

我需要帮助python中的lxml语句提取元标记值

1 个答案: