Question

我需要使用scrapy解析一个网站.html页面模式如下

div class="nameinfo"
     div class="namesub"
           span class="namesub">/span>
           span class="info">data of type 1 /span>
     /div
     div class="namesub">
          span class="namesub">/span>
          span class="info">data of type 2 /span>
    /div>

     div class="namesub">
          span class="namesub">/span>
          span class="info">data of type 3 /span>> 
    /div>
/div

我有三种不同类型的数据，如上所述。任何想法如何获得所需的数据。所有这些都在div中的span元素中，类为attrib'namesub'。在此先感谢：）

Answer 1

这是你应该放在蜘蛛里面的东西：

hxs = HtmlXPathSelector(response)

namesubs = hxs.select("//div[@class='namesub']")
for namesub in namesubs:
    item = MyItem()
    item["info"] = namesub.select('.//span[@class="info"]/text()').extract()[0]

    yield item

此代码假定您已使用MyItem字段定义了info项目类。

希望有所帮助。

使用scrapy解析同一div下的网站

1 个答案: