我正在尝试抓取一堆链接,或者可以附加到根域以从https://www.media.mit.edu/groups进行链接的内容
html本身看起来像这样:
<div class="container-item listing-layout-item selectorgadget_selected" data-href="/groups/viral-communications/overview/" '="">
<div class="container-item listing-layout-item selectorgadget_suggested" data-href="/groups/social-machines/overview/" '="">
<div class="container-item listing-layout-item selectorgadget_suggested" data-href="/groups/space-enabled/overview/" '="">
链接数据存储在data-href
部分中,我一直在尝试使用CSS选择器来获取此数据。
当我使用Scrapy外壳时,我一直在尝试使用
response.css('.data-href::text').extract()
,但返回一个空列表。
任何建议将不胜感激!
答案 0 :(得分:2)
尝试使用
response.xpath('//div/@data-href').extract()
获得所需的值