Scrapy数据表提取

时间:2016-05-21 06:00:15

标签: web-scraping scrapy

我正在试图抓<object class='general-details-btn' data='general-details-btn.svg' type='image/svg+xml' height='20' width='20'> 对于过期的域数据列表。

我总是得到以下

的空项目字段
"https://www.expireddomains.net/deleted-com-domains/"

有人可以指出出了什么问题吗?感谢。

1 个答案:

答案 0 :(得分:0)

首先,您应该使用scrapy.Spider代替不推荐使用的BaseSpider

其次,.extract()方法返回列表而不是单个元素。 这就是项目提取的样子

item['domain'] = row.xpath('td[1]/text()').extract_first()
item['bl'] = row.xpath('td[2]/text()').extract_first()

此外,

您应该使用内置的python logging

import logging
logging.debug("parse("+response.url+")")