如何从具有多个td嵌套标签的表中进行scrapy

时间:2016-08-14 07:57:27

标签: python xpath scrapy

我已经扫描了这个页面中的数据(http://www.itjuzi.com/company/934),但我想得到的是一个包含子td标签的列表,以及一个包含父td标签的列表。

代码如下:

response.xpath("//table[@class='list-round-v2']//tr/td[4]//text()").extract()

我想要的结果如下:

[["骊悦投资","长山兴资本"],
["中信产业基金","高瓴资本Hillhouse Capital","IDG资本","北极光创投","DCM中国"]]

enter image description here

1 个答案:

答案 0 :(得分:1)

这将完成工作

textlist=[]
for row in response.xpath("//table[contains(@class,'list-round-v2')]//tr"):
    textlist.append(row.xpath("td[4]//text()[parent::a|parent::span]").extract())