Question

例如，我想抓取三个类似的网址：

https://example.com/book1
https://example.com/book2
https://example.com/book3

我想要的是在pipe.py中，我创建了3个名为book1，book2和book3的文件，并正确地单独编写了3本书的数据 在spider.py中，我知道三本书的名称作为文件名，但不在pipeline.py中它们具有相同的结构，因此我决定编码如下：

class Book_Spider(scrapy.Spider):
    def start_requests(self):
        for url in urls:
            yield scrapy.Request(url, self.parse)
    def parse(self, response):
        # item handling
        yield item

现在，我该怎么办？

Answer 1

史密斯，如果你想知道pipeline.py中的书名。您可以为book_file_name创建项目字段，并根据需要相应地填充它。或者你可以从url字段中提取它，url字段也是一个item字段，可以在pipline.py中访问

Scrapy解析为管道

1 个答案: