Question

我已经扫描了这个页面中的数据（http://www.itjuzi.com/company/934），但我想得到的是一个包含子td标签的列表，以及一个包含父td标签的列表。

代码如下：

response.xpath("//table[@class='list-round-v2']//tr/td[4]//text()").extract()

我想要的结果如下：

[["骊悦投资","长山兴资本"],
["中信产业基金","高瓴资本Hillhouse Capital","IDG资本","北极光创投","DCM中国"]]

Answer 1

这将完成工作

textlist=[]
for row in response.xpath("//table[contains(@class,'list-round-v2')]//tr"):
    textlist.append(row.xpath("td[4]//text()[parent::a|parent::span]").extract())

如何从具有多个td嵌套标签的表中进行scrapy

1 个答案: