我正在使用scrapy来解析谷歌的一些页面。我从响应中保存了HTML,并且我使用谷歌浏览器来查找我需要的文本的xpath选择器:
返回的html保存在此pastebin中:https://pastebin.com/naV2N8u2
我要去找这段文字,直接在START houston:
(20) · Coworking Space
Chrome说选择器是:
//*[@id="ires"]/ol/div/div[1]/table/tbody/tr/td[1]/a/div[2]/text()
但是当我在scrapy中运行选择器时,我得到一个空列表
company_type_sel = '//*[@id="ires"]/ol/div/div[1]/table/tbody/tr/td[1]/a/div[2]/text()'
company_type_sel_response = Selector(response).xpath(company_type_sel).extract()
self.logger.info("Company Type responses: ")
self.logger.info(company_type_sel_response)
返回:
2018-02-15 11:10:31 [gspider] INFO: Company Type responses:
2018-02-15 11:10:31 [gspider] INFO: []
加分问题,如何迭代div[1]
,div[2]
等列表?