我正在尝试抓取网站,并且要抓取自定义html属性。
首先,我获得了链接:
result.css('p.paraclass a').extract()
它看起来像这样:
<a href="https://thisisawebsite.com" data-id="12345" class="aclass">I am a link</a>
我想抓取data-id标签的值。我可以通过获取整个链接然后进行操作来做到这一点,但是我想弄清楚是否有一种方法可以直接使用草率的选择器。
答案 0 :(得分:2)
我相信以下方法会起作用:
create/main.go:13:17: ctx.user undefined (type context.Context has no field or method user)
答案 1 :(得分:0)
两种实现方法:
ping
Xpath选择器
from scrapy.selector import Selector
partial_body = ' <a href="https://thisisawebsite.com" data-id="12345" class="aclass">I am a link</a>'
sel = Selector(text=partial_body)
sel.xpath('//a/@data-id').extract()
CSS选择器
#output : ['12345']
sel.css('a::attr(data-id)').extract_first()