我正在研究一个项目,该项目希望从Ebay列表中提取数据并存储以供分析。我正在使用Scrapy来抓取/抓取特定类别,但在尝试提取项目“描述”字段中的文本时遇到了问题。每个列表似乎都有一个独特的描述布局,所以我不能为我的Scrapy对象的项目推广xPath。
例如,一个广告可能具有this之类的布局,而另一个广告的格式可能为this。如何在每个描述选项卡中提取文本?我可以成功提取其他字段,因为他们的xPath在Ebay广告中是通用的。这是我正在努力的方法:
def parse_item(self, response):
item = EbayItem()
item['url'] = response.url
item['title'] = response.xpath('//*[@id="itemTitle"]/text()').extract()
item['description']= response.xpath( #THISISWHEREIMLOST).extract()
print ":("