使用scrapy解析同一div下的网站

时间:2013-07-09 13:03:55

标签: python web-scraping scrapy

我需要使用scrapy解析一个网站.html页面模式如下

div class="nameinfo"
     div class="namesub"
           span class="namesub">/span>
           span class="info">data of type 1 /span>
     /div
     div class="namesub">
          span class="namesub">/span>
          span class="info">data of type 2 /span>
    /div>
div class="namesub"> span class="namesub">/span> span class="info">data of type 3 /span>> /div> /div
我有三种不同类型的数据,如上所述。任何想法如何获得所需的数据。所有这些都在div中的span元素中,类为attrib'namesub'。在此先感谢:)

1 个答案:

答案 0 :(得分:3)

这是你应该放在蜘蛛里面的东西:

hxs = HtmlXPathSelector(response)

namesubs = hxs.select("//div[@class='namesub']")
for namesub in namesubs:
    item = MyItem()
    item["info"] = namesub.select('.//span[@class="info"]/text()').extract()[0]

    yield item

此代码假定您已使用MyItem字段定义了info项目类。

希望有所帮助。