我目前正在通过我的rails应用程序解析Twitter提要,并想知道如何跟踪推文中的链接并抓取外部内容(例如,如果推文包含指向TechCrunch上文章的链接,请关注链接到文章并刮掉文章的标题和正文内容)。 Flipboard for iPad就是一个很好的例子。
我熟悉使用Nokogirl / Mechanize进行屏幕抓取,但试图弄清楚如何以一种方式完成此任务,无论链接中的链接链接到哪里(无论是TechCrunch还是Flickr)等等......)。
非常感谢任何想法/见解!
答案 0 :(得分:2)
许多主要内容提供商都提供oembed个终结点。看看oembed_links宝石。从自述文件:
它允许您轻松解析文本和 查询配置的提供程序以在链接上嵌入信息 在文本里面。用于配置的示例配置文件 库已被包含(oembed_links_example.yml),尽管你 也可以通过编程方式配置库(参见rdocs)。
如果您将oembed_links与http://oohembed.com/结合使用,您将会为您处理数十个内容提供商。您可以轻松编写自定义提供程序来处理其余的工作。