当我使用 scrapy 将所有表元素捕获到csv文件时,我遇到了一些问题,我几乎完成了捕获所有数据,只是一些表列是空的(比如,<td></td>
) ,它有什么方法可以防止这种情况发生?我使用scrapy shell xxx.com并使用sel.xpath(xxx)
获取数据,它没有显示<td></td>
,但网站框架源有。所以当我使用sel.xpath(xxx)
数据到我的csv文件时,格式就会出错。
答案 0 :(得分:0)
1.您可以尝试路径,
sel.xpath('//td/text()').extract()
2.可能是该网站的所有者已被封为像yell.com一样。