Scrapy和起始URL

时间:2014-06-27 13:12:20

标签: scrapy

我从一堆页面中删除标题标签中的文字,但也希望将我的起始网址作为字段包含在我的项目中。有谁知道我怎么能这样做?当我将数据导出为CSV时,我希望看到标题旁边的起始网址。

这是我蜘蛛的代码---

class QuadNumbers(BaseSpider):
    name = "quad_numbers"
    allowed_domains = ["quadratec.com"]
    start_urls = ["http://www.example.com/abc",
                  "http://www.example.com/abc",]

    def parse(self, response):
        sel = Selector(response)
        sites = sel.xpath('//title')
        items = []
        for site in sites:
            item = QuadNumbersItem()
            item['title'] = site.xpath('text()').extract()
            item['start_url'] = __________??
            items.append(item)
        return items

1 个答案:

答案 0 :(得分:2)

你可以这样做:

item['start_url'] = response.url