使用Rails跟踪和抓取链接

时间:2011-04-16 19:13:29

标签: ruby-on-rails ruby ruby-on-rails-3 rubygems

我目前正在通过我的rails应用程序解析Twitter提要,并想知道如何跟踪推文中的链接并抓取外部内容(例如,如果推文包含指向TechCrunch上文章的链接,请关注链接到文章并刮掉文章的标题和正文内容)。 Flipboard for iPad就是一个很好的例子。

我熟悉使用Nokogirl / Mechanize进行屏幕抓取,但试图弄清楚如何以一种方式完成此任务,无论链接中的链接链接到哪里(无论是TechCrunch还是Flickr)等等......)。

非常感谢任何想法/见解!

1 个答案:

答案 0 :(得分:2)

许多主要内容提供商都提供oembed个终结点。看看oembed_links宝石。从自述文件:

  

它允许您轻松解析文本和   查询配置的提供程序以在链接上嵌入信息   在文本里面。用于配置的示例配置文件   库已被包含(oembed_links_example.yml),尽管你   也可以通过编程方式配置库(参见rdocs)。

如果您将oembed_links与http://oohembed.com/结合使用,您将会为您处理数十个内容提供商。您可以轻松编写自定义提供程序来处理其余的工作。