Scrapy如何从数据引用中获取价值

时间:2018-08-10 18:10:39

标签: python xpath scrapy css-selectors scrapy-spider

我正在尝试抓取一堆链接,或者可以附加到根域以从https://www.media.mit.edu/groups进行链接的内容

html本身看起来像这样:

<div class="container-item listing-layout-item selectorgadget_selected" data-href="/groups/viral-communications/overview/" '="">   
<div class="container-item listing-layout-item  selectorgadget_suggested" data-href="/groups/social-machines/overview/" '="">
<div class="container-item listing-layout-item  selectorgadget_suggested" data-href="/groups/space-enabled/overview/" '="">

链接数据存储在data-href部分中,我一直在尝试使用CSS选择器来获取此数据。

当我使用Scrapy外壳时,我一直在尝试使用 response.css('.data-href::text').extract(),但返回一个空列表。

任何建议将不胜感激!

1 个答案:

答案 0 :(得分:2)

尝试使用

response.xpath('//div/@data-href').extract()

获得所需的值