正在获取媒体:RSS Feed中的缩略图网址

时间:2018-10-31 07:29:51

标签: python xpath scrapy rss

我有这个RSS提要(下面提供了示例),我想从media:thumbnail对象中提取URL,但是这样做没有成功(下面提供了我的代码)。我在这里找到的所有示例的XML格式都不同。我如何从xml获取URL。预先感谢。

xml:

<item>
    <title>
        <![CDATA[
        أردوغان: هناك محاولة لحماية شخص ما في حادث مقتل خاشقجي
        ]]>
    </title>
    <description>
        <![CDATA[
        الرئيس التركي، رجب طيب إردوغان، يقول إن هناك محاولة لحماية        شخص أو بعض الأشخاص في حادث مقتل الصحفي السعودي، جمال خاشقجي، وإنه يجب أن يُنهى   موضوع مكان الجثة بشكل سريع.
        ]]>
    </description>
    <link>http://www.bbc.co.uk/arabic/middleeast-46017209</link>
    <guid isPermaLink="true">http://www.bbc.co.uk/arabic/middleeast-46017209</guid>
    <pubDate>Tue, 30 Oct 2018 11:15:25 GMT</pubDate>
    <media:thumbnail width="976" height="549" url="http://c.files.bbci.co.uk/1795/production/_104073060_mediaitem104073056.jpg"/>
 </item>

我的代码:

articles = response.xpath('//channel/item')
for article in articles:
    item = ArtscraperItem()
    thumb="thumbnail"
    item['pic']=article.xpath('/*[local-name() = "%s"]/@url' %thumb )

0 个答案:

没有答案