我正在试图抓<object class='general-details-btn' data='general-details-btn.svg' type='image/svg+xml' height='20' width='20'>
对于过期的域数据列表。
我总是得到以下
的空项目字段"https://www.expireddomains.net/deleted-com-domains/"
有人可以指出出了什么问题吗?感谢。
答案 0 :(得分:0)
首先,您应该使用scrapy.Spider
代替不推荐使用的BaseSpider
其次,.extract()
方法返回列表而不是单个元素。
这就是项目提取的样子
item['domain'] = row.xpath('td[1]/text()').extract_first()
item['bl'] = row.xpath('td[2]/text()').extract_first()
此外,
您应该使用内置的python logging
库
import logging
logging.debug("parse("+response.url+")")