Scrapy-抓取HTML自定义属性

时间:2018-10-31 00:23:56

标签: python scrapy

我正在尝试抓取网站,并且要抓取自定义html属性。

首先,我获得了链接:

result.css('p.paraclass a').extract()

它看起来像这样:

 <a href="https://thisisawebsite.com" data-id="12345" class="aclass">I am a link</a>

我想抓取data-id标签的值。我可以通过获取整个链接然后进行操作来做到这一点,但是我想弄清楚是否有一种方法可以直接使用草率的选择器。

2 个答案:

答案 0 :(得分:2)

我相信以下方法会起作用:

create/main.go:13:17: ctx.user undefined (type context.Context has no field or method user)

答案 1 :(得分:0)

两种实现方法:

ping
  • Xpath选择器

    from scrapy.selector import Selector partial_body = ' <a href="https://thisisawebsite.com" data-id="12345" class="aclass">I am a link</a>' sel = Selector(text=partial_body) sel.xpath('//a/@data-id').extract()

  • CSS选择器

    #output : ['12345'] sel.css('a::attr(data-id)').extract_first()