Question

我一直在为MichaelKors.com使用scrapy。到目前为止，我已经使用window.initial_state中的SKU来获取所有属性和相关信息。但是，有些网页我无法抓取，例如： https://www.michaelkors.com/zip-hoodie-embellished-skirt-manhattan-crossbody-goldie-moto-boot/_/L-MSTR101179 它没有SKU，所以我尝试像这样直接获得它：

desc = response.xpath('//p[@class="look-description-desktop hide-on-mobile"]/text()').getall()

但是，它什么也没返回。如果要抓取特定信息，还需要考虑哪些其他属性或方面？我是新手，所以我不清楚从这儿去哪里。

Answer 1

您在问题中编写的xpath为您提供了描述（至少在渲染页面时）。要查看网页看起来有多沙哑，可以在命令行中执行以下操作：

scrapy shell 'https://www.michaelkors.com/zip-hoodie-embellished-skirt-manhattan-crossbody-goldie-moto-boot/_/L-MSTR101179'

view(response)

您将在此处看到描述，如下所示：

response.xpath('//*[@property="og:description"]/@content').extract_first()