用scrapy从桌子上刮下链接。 tabe的格式如下:
<tr>
<td> <a href="url">Link name 1</a> and <a href="url">Link name 2</a> </td>
<td> Item 2</td>
<td align="center"> <a href="url">Link name 3</a> </td>
<td> Item 4</td>
<td> Item 5</td>
</tr>
我可以使用
获取文本项目rows = hxs.select('//tr')
for row in rows:
print row.select('td/text()').extract()
它只返回文本值。
[u' Item 2', u' Item 4', u' Item 5']
我想列出包含链接名称1,链接名称2,链接名称3
的网址答案 0 :(得分:0)
您可以尝试使用XPath来获取想要的链接:
row.select('td/a/@href').extract()