我一直在为MichaelKors.com使用scrapy。到目前为止,我已经使用window.initial_state中的SKU来获取所有属性和相关信息。但是,有些网页我无法抓取,例如: https://www.michaelkors.com/zip-hoodie-embellished-skirt-manhattan-crossbody-goldie-moto-boot/_/L-MSTR101179 它没有SKU,所以我尝试像这样直接获得它:
desc = response.xpath('//p[@class="look-description-desktop hide-on-mobile"]/text()').getall()
但是,它什么也没返回。 如果要抓取特定信息,还需要考虑哪些其他属性或方面?我是新手,所以我不清楚从这儿去哪里。
答案 0 :(得分:0)
您在问题中编写的xpath为您提供了描述(至少在渲染页面时)。要查看网页看起来有多沙哑,可以在命令行中执行以下操作:
scrapy shell 'https://www.michaelkors.com/zip-hoodie-embellished-skirt-manhattan-crossbody-goldie-moto-boot/_/L-MSTR101179'
view(response)
您将在此处看到描述,如下所示:
response.xpath('//*[@property="og:description"]/@content').extract_first()