如何从sub-reddit中刮取图像?

时间:2014-12-10 07:12:55

标签: ruby web-scraping reddit

鉴于像/ r / pics这样的subreddit,我如何刮掉Ruby中的所有图像?

我查看了Reddit的API,但似乎没有任何相关内容。但像“redditery”这样的网站已经在做这件事 - http://www.redditery.com/r/aww

1 个答案:

答案 0 :(得分:1)

查看nokogiri它将能够执行此任务。

require 'open-uri'
require 'nokogiri'

doc = Nokogiri::HTML(open("http://www.reddit.com/r/aww"))
doc.css('div#siteTable').css('a').each {|x| puts x['href']}

那应该输出到图像的链接(这段代码没有经过测试但应该非常接近)