Question

我正在试图抓<object class='general-details-btn' data='general-details-btn.svg' type='image/svg+xml' height='20' width='20'> 对于过期的域数据列表。

我总是得到以下

的空项目字段

"https://www.expireddomains.net/deleted-com-domains/"

有人可以指出出了什么问题吗？感谢。

Answer 1

首先，您应该使用scrapy.Spider代替不推荐使用的BaseSpider

其次，.extract()方法返回列表而不是单个元素。这就是项目提取的样子

item['domain'] = row.xpath('td[1]/text()').extract_first()
item['bl'] = row.xpath('td[2]/text()').extract_first()

此外，

您应该使用内置的python logging库

import logging
logging.debug("parse("+response.url+")")