Question

我正在尝试抓取网站，并且要抓取自定义html属性。

首先，我获得了链接：

result.css('p.paraclass a').extract()

它看起来像这样：

 <a href="https://thisisawebsite.com" data-id="12345" class="aclass">I am a link</a>

我想抓取data-id标签的值。我可以通过获取整个链接然后进行操作来做到这一点，但是我想弄清楚是否有一种方法可以直接使用草率的选择器。

Answer 1

我相信以下方法会起作用：

create/main.go:13:17: ctx.user undefined (type context.Context has no field or method user)

Answer 2

两种实现方法：

ping

Xpath选择器

from scrapy.selector import Selector partial_body = ' <a href="https://thisisawebsite.com" data-id="12345" class="aclass">I am a link</a>' sel = Selector(text=partial_body) sel.xpath('//a/@data-id').extract()
CSS选择器

#output : ['12345'] sel.css('a::attr(data-id)').extract_first()