具有不同布局的网站抓取网站(经用户同意)

时间:2011-11-27 22:54:49

标签: ruby-on-rails-3 nokogiri web-scraping

我有一个用户可以发布博客条目的网站,他们可以自己编写,但我也想给他们一个从他们可能已经拥有的博客网站导入他们现有条目的选项(不用担心,只有用户自己如果他们选择这样做,将上传他们自己的内容)。然而,主要的问题是,现在每个用户都可以自定义他/她的博客外观,这意味着即使是两个使用相同网站的用户(例如blogspot或wordpress)也可以拥有完全不同的布局和div命名。 有没有办法以某种方式用“通用”方法或其他东西刮掉这些条目?

在有人建议RSS之前,我已尝试过,但我希望整个条目上传到我的网站上,只有blogspot似乎将它们存储在RSS中,此外,用户将选择要上传的条目,而不是整个博客,这意味着他们可以从相当多的时间选择一个条目,RSS不再存储。

我正在使用Ruby on Rails 3,并且到目前为止尝试使用Nokogiri进行搜索。

1 个答案:

答案 0 :(得分:0)

有一个用于webscraping的书面宝石,它是MECHANIZE GEM。 它非常简单实用。这个以及一些jQuery shinanigans应该可以解决问题。