我需要使用scrapy解析一个网站.html页面模式如下
div class="nameinfo" div class="namesub" span class="namesub">/span> span class="info">data of type 1 /span> /div div class="namesub"> span class="namesub">/span> span class="info">data of type 2 /span> /div>我有三种不同类型的数据,如上所述。任何想法如何获得所需的数据。所有这些都在div中的span元素中,类为attrib'namesub'。在此先感谢:)
div class="namesub"> span class="namesub">/span> span class="info">data of type 3 /span>> /div> /div
答案 0 :(得分:3)
这是你应该放在蜘蛛里面的东西:
hxs = HtmlXPathSelector(response)
namesubs = hxs.select("//div[@class='namesub']")
for namesub in namesubs:
item = MyItem()
item["info"] = namesub.select('.//span[@class="info"]/text()').extract()[0]
yield item
此代码假定您已使用MyItem
字段定义了info
项目类。
希望有所帮助。