Question

用scrapy从桌子上刮下链接。 tabe的格式如下：

<tr>
<td> <a href="url">Link name 1</a> and <a href="url">Link name 2</a> </td>
<td> Item 2</td>
<td align="center"> <a href="url">Link name 3</a> </td>
<td> Item 4</td>
<td> Item 5</td>
</tr>

我可以使用

获取文本项目

rows = hxs.select('//tr')
for row in rows:
    print row.select('td/text()').extract()

它只返回文本值。

[u' Item 2',  u' Item 4', u' Item 5']

我想列出包含链接名称1，链接名称2，链接名称3

的网址

Answer 1

您可以尝试使用XPath来获取想要的链接：

row.select('td/a/@href').extract()

用scrapy从桌子上刮下链接

1 个答案: