用scrapy从桌子上刮下链接

时间:2013-07-03 12:19:08

标签: python web-scraping scrapy

用scrapy从桌子上刮下链接。 tabe的格式如下:

<tr>
<td> <a href="url">Link name 1</a> and <a href="url">Link name 2</a> </td>
<td> Item 2</td>
<td align="center"> <a href="url">Link name 3</a> </td>
<td> Item 4</td>
<td> Item 5</td>
</tr>

我可以使用

获取文本项目
rows = hxs.select('//tr')
for row in rows:
    print row.select('td/text()').extract()

它只返回文本值。

[u' Item 2',  u' Item 4', u' Item 5']

我想列出包含链接名称1,链接名称2,链接名称3

的网址

1 个答案:

答案 0 :(得分:0)

您可以尝试使用XPath来获取想要的链接:

row.select('td/a/@href').extract()