Question

我从一堆页面中删除标题标签中的文字，但也希望将我的起始网址作为字段包含在我的项目中。有谁知道我怎么能这样做？当我将数据导出为CSV时，我希望看到标题旁边的起始网址。

这是我蜘蛛的代码---

class QuadNumbers(BaseSpider):
    name = "quad_numbers"
    allowed_domains = ["quadratec.com"]
    start_urls = ["http://www.example.com/abc",
                  "http://www.example.com/abc",]

    def parse(self, response):
        sel = Selector(response)
        sites = sel.xpath('//title')
        items = []
        for site in sites:
            item = QuadNumbersItem()
            item['title'] = site.xpath('text()').extract()
            item['start_url'] = __________??
            items.append(item)
        return items

Answer 1

你可以这样做：

item['start_url'] = response.url

Scrapy和起始URL

1 个答案: