我从一堆页面中删除标题标签中的文字,但也希望将我的起始网址作为字段包含在我的项目中。有谁知道我怎么能这样做?当我将数据导出为CSV时,我希望看到标题旁边的起始网址。
这是我蜘蛛的代码---
class QuadNumbers(BaseSpider):
name = "quad_numbers"
allowed_domains = ["quadratec.com"]
start_urls = ["http://www.example.com/abc",
"http://www.example.com/abc",]
def parse(self, response):
sel = Selector(response)
sites = sel.xpath('//title')
items = []
for site in sites:
item = QuadNumbersItem()
item['title'] = site.xpath('text()').extract()
item['start_url'] = __________??
items.append(item)
return items
答案 0 :(得分:2)
你可以这样做:
item['start_url'] = response.url