如何抓取网页

时间:2019-07-19 11:17:50

标签: python scrapy pycharm

我一直在为MichaelKors.com使用scrapy。到目前为止,我已经使用window.initial_state中的SKU来获取所有属性和相关信息。但是,有些网页我无法抓取,例如: https://www.michaelkors.com/zip-hoodie-embellished-skirt-manhattan-crossbody-goldie-moto-boot/_/L-MSTR101179 它没有SKU,所以我尝试像这样直接获得它:

desc = response.xpath('//p[@class="look-description-desktop hide-on-mobile"]/text()').getall()

但是,它什么也没返回。 如果要抓取特定信息,还需要考虑哪些其他属性或方面?我是新手,所以我不清楚从这儿去哪里。

1 个答案:

答案 0 :(得分:0)

您在问题中编写的xpath为您提供了描述(至少在渲染页面时)。要查看网页看起来有多沙哑,可以在命令行中执行以下操作:

scrapy shell 'https://www.michaelkors.com/zip-hoodie-embellished-skirt-manhattan-crossbody-goldie-moto-boot/_/L-MSTR101179'

view(response)

您将在此处看到描述,如下所示:

response.xpath('//*[@property="og:description"]/@content').extract_first()