Scrapy解析为管道

时间:2016-06-09 08:13:11

标签: python scrapy

例如,我想抓取三个类似的网址:

https://example.com/book1
https://example.com/book2
https://example.com/book3

我想要的是在pipe.py中,我创建了3个名为book1,book2和book3的文件,并正确地单独编写了3本书的数据 在spider.py中,我知道三本书的名称作为文件名,但不在pipeline.py中 它们具有相同的结构,因此我决定编码如下:

class Book_Spider(scrapy.Spider):
    def start_requests(self):
        for url in urls:
            yield scrapy.Request(url, self.parse)
    def parse(self, response):
        # item handling
        yield item

现在,我该怎么办?

1 个答案:

答案 0 :(得分:0)

史密斯,如果你想知道pipeline.py中的书名。您可以为book_file_name创建项目字段,并根据需要相应地填充它。或者你可以从url字段中提取它,url字段也是一个item字段,可以在pipline.py中访问