在我尝试使用scrapy编写蜘蛛时,我试图从元素中提取数据,就像你对href一样
例如<tr><td><a href = "www.somelink.com">
将是hxs.select('//tr/td/a/@href').extract()
所以我们在这里做的是获取分配给href的数据
我有一个span元素,它具有类和数据属性
<span class="classname" data="{...data in here...}">
但是尝试以下操作会在scrapy中产生错误,其中我选择span元素的数据属性,其中span元素class = classname。
hxs.select('//div/span[@class="classname"]/@data/').extract()
甚至可以从href以外的属性中提取数据,如果是这样,我该怎么做? 感谢
答案 0 :(得分:1)
如果在@data
之后删除尾部斜杠,它是否有效?