Question

我正在尝试抓取一堆链接，或者可以附加到根域以从https://www.media.mit.edu/groups进行链接的内容

html本身看起来像这样：

<div class="container-item listing-layout-item selectorgadget_selected" data-href="/groups/viral-communications/overview/" '="">   
<div class="container-item listing-layout-item  selectorgadget_suggested" data-href="/groups/social-machines/overview/" '="">
<div class="container-item listing-layout-item  selectorgadget_suggested" data-href="/groups/space-enabled/overview/" '="">

链接数据存储在data-href部分中，我一直在尝试使用CSS选择器来获取此数据。

当我使用Scrapy外壳时，我一直在尝试使用 response.css('.data-href::text').extract()，但返回一个空列表。

任何建议将不胜感激！

Answer 1

尝试使用

response.xpath('//div/@data-href').extract()

获得所需的值

Scrapy如何从数据引用中获取价值

1 个答案: