Scrapy创建XML feed包含“value”标签中的内容

时间:2015-04-24 23:29:49

标签: python xml scrapy scrapy-spider

我的代码在这里得到了一些帮助。唯一的问题是,在生成XML的过程中,当我不想要它时,它会将内容包装在“value”标签中。根据文件,这是由于:

  

除非在:meth:serialize_field方法中重写,否则为多值   通过序列化<value>内的每个值来导出字段   元件。这是为了方便,因为多值字段非常多   常见的。

这是我的输出:

<?xml version="1.0" encoding="UTF-8"?>
<items>
   <item>
      <body>
         <value>Don't forget me this weekend!</value>
      </body>
      <to>
         <value>Tove</value>
      </to>
      <who>
         <value>Jani</value>
      </who>
      <heading>
         <value>Reminder</value>
      </heading>
   </item>
</items>

我发送给XML导出器的内容似乎是这样,所以我不知道为什么它认为它是多值的?

{'body': [u"Don't forget me this weekend!"],
 'heading': [u'Reminder'],
 'to': [u'Tove'],
 'who': [u'Jani']}

pipeline.py

from scrapy import signals
from scrapy.contrib.exporter import XmlItemExporter

class XmlExportPipeline(object):

    def __init__(self):
        self.files = {}

    @classmethod
    def from_crawler(cls, crawler):
         pipeline = cls()
         crawler.signals.connect(pipeline.spider_opened, signals.spider_opened)
         crawler.signals.connect(pipeline.spider_closed, signals.spider_closed)
         return pipeline

    def spider_opened(self, spider):
        file = open('%s_products.xml' % spider.name, 'w+b')
        self.files[spider] = file
        self.exporter = XmlItemExporter(file)
        self.exporter.start_exporting()

    def spider_closed(self, spider):
        self.exporter.finish_exporting()
        file = self.files.pop(spider)
        file.close()

    def process_item(self, item, spider):
        self.exporter.export_item(item)
        return item

spider.py

from scrapy.contrib.spiders import XMLFeedSpider
from crawler.items import CrawlerItem

class SiteSpider(XMLFeedSpider):
    name = 'site'
    allowed_domains = ['www.w3schools.com']
    start_urls = ['http://www.w3schools.com/xml/note.xml']
    itertag = 'note'

    def parse_node(self, response, selector):
        item = CrawlerItem()
        item['to'] = selector.xpath('//to/text()').extract()
        item['who'] = selector.xpath('//from/text()').extract()
        item['heading'] = selector.xpath('//heading/text()').extract()
        item['body'] = selector.xpath('//body/text()').extract()
        return item

任何帮助都会非常感激。我只想要没有冗余标签的相同输出。

2 个答案:

答案 0 :(得分:3)

extract()方法将始终返回值列表,即使结果只有一个值,例如:[4][3,4,5]None 。 为避免这种情况,如果您知道只有一个值,则可以选择它:

item['to'] = selector.xpath('//to/text()').extract()[0]

注意: 请注意,如果extract()返回None并且您尝试将其编入索引,则会导致异常抛出。在这种不确定的情况下,这是一个很好的技巧:

item['to'] = (selector.xpath('...').extract() or [''])[0]

或者您可以编写自定义函数来获取第一个元素:

def extract_first(selector, default=None):
    val = selector.extract()
    return val[0] if val else default

这样,如果找不到所需的值,您可以使用默认值:

item['to'] = extract_first(selector.xpath(...))  # First or none
item['to'] = extract_first(selector.xpath(...), 'not-found')  # First of 'not-found'

答案 1 :(得分:0)

关于发生这种情况的原因,以上答案是正确的,但是我想补充一点,现在已经对此提供了开箱即用的支持,而无需编写辅助方法。

item['to'] = selector.xpath('//to/text()').extract_first()

item['to'] = selector.xpath('//to/text()').extract_first(default='spam')