我的代码在这里得到了一些帮助。唯一的问题是,在生成XML的过程中,当我不想要它时,它会将内容包装在“value”标签中。根据文件,这是由于:
除非在:meth:
serialize_field
方法中重写,否则为多值 通过序列化<value>
内的每个值来导出字段 元件。这是为了方便,因为多值字段非常多 常见的。
这是我的输出:
<?xml version="1.0" encoding="UTF-8"?>
<items>
<item>
<body>
<value>Don't forget me this weekend!</value>
</body>
<to>
<value>Tove</value>
</to>
<who>
<value>Jani</value>
</who>
<heading>
<value>Reminder</value>
</heading>
</item>
</items>
我发送给XML导出器的内容似乎是这样,所以我不知道为什么它认为它是多值的?
{'body': [u"Don't forget me this weekend!"],
'heading': [u'Reminder'],
'to': [u'Tove'],
'who': [u'Jani']}
pipeline.py
from scrapy import signals
from scrapy.contrib.exporter import XmlItemExporter
class XmlExportPipeline(object):
def __init__(self):
self.files = {}
@classmethod
def from_crawler(cls, crawler):
pipeline = cls()
crawler.signals.connect(pipeline.spider_opened, signals.spider_opened)
crawler.signals.connect(pipeline.spider_closed, signals.spider_closed)
return pipeline
def spider_opened(self, spider):
file = open('%s_products.xml' % spider.name, 'w+b')
self.files[spider] = file
self.exporter = XmlItemExporter(file)
self.exporter.start_exporting()
def spider_closed(self, spider):
self.exporter.finish_exporting()
file = self.files.pop(spider)
file.close()
def process_item(self, item, spider):
self.exporter.export_item(item)
return item
spider.py
from scrapy.contrib.spiders import XMLFeedSpider
from crawler.items import CrawlerItem
class SiteSpider(XMLFeedSpider):
name = 'site'
allowed_domains = ['www.w3schools.com']
start_urls = ['http://www.w3schools.com/xml/note.xml']
itertag = 'note'
def parse_node(self, response, selector):
item = CrawlerItem()
item['to'] = selector.xpath('//to/text()').extract()
item['who'] = selector.xpath('//from/text()').extract()
item['heading'] = selector.xpath('//heading/text()').extract()
item['body'] = selector.xpath('//body/text()').extract()
return item
任何帮助都会非常感激。我只想要没有冗余标签的相同输出。
答案 0 :(得分:3)
extract()
方法将始终返回值列表,即使结果只有一个值,例如:[4]
,[3,4,5]
或None
。
为避免这种情况,如果您知道只有一个值,则可以选择它:
item['to'] = selector.xpath('//to/text()').extract()[0]
注意:
请注意,如果extract()
返回None
并且您尝试将其编入索引,则会导致异常抛出。在这种不确定的情况下,这是一个很好的技巧:
item['to'] = (selector.xpath('...').extract() or [''])[0]
或者您可以编写自定义函数来获取第一个元素:
def extract_first(selector, default=None):
val = selector.extract()
return val[0] if val else default
这样,如果找不到所需的值,您可以使用默认值:
item['to'] = extract_first(selector.xpath(...)) # First or none
item['to'] = extract_first(selector.xpath(...), 'not-found') # First of 'not-found'
答案 1 :(得分:0)
关于发生这种情况的原因,以上答案是正确的,但是我想补充一点,现在已经对此提供了开箱即用的支持,而无需编写辅助方法。
item['to'] = selector.xpath('//to/text()').extract_first()
和
item['to'] = selector.xpath('//to/text()').extract_first(default='spam')