从任何网站获取一串字符串值

时间:2011-11-02 04:25:54

标签: ruby-on-rails ruby ruby-on-rails-3 httpwebrequest data-mining

我正在尝试创建一个从PitchforkMedia.com获取专辑分数的rails应用程序 例如,我想抓住score 8.0 from this album,如下图所示。

在我的简短研究中,我遇到了类似的问题asked from asp.net point of view

一般来说,建议的答案是

  1. 使用http请求
  2. 解析HTML源代码
  3. 识别变量得分周围的唯一标志
  4. 使用内置的asp.net函数可以得到一些答案。

    Ruby或Ruby on Rails中是否有等效的函数? 或者有人可以通过其他方式建议我做我想做的事情吗?

    任何建议将不胜感激。谢谢。

    编辑1:这完全适合个人使用和教育。假设网站没有合法数据挖掘的法律后果。

    enter image description here

2 个答案:

答案 0 :(得分:2)

我会使用Mechanize来抓取您感兴趣的内容.Ryan Bates有great screencast on how to use Mechanize

答案 1 :(得分:1)

在开始屏幕抓取数据之前,您需要确保阅读网站的使用条款,特别是如果不是供个人使用。

这是Pitchfork的使用条款的一部分,大多数其他网站都有类似的东西。

“如果Pitchfork不是所有者,未经Pitchfork或其所有者的明确书面同意,严禁以任何目的复制,复制或再分发本网站的资料或设计元素。”

屏幕抓取肯定属于这一类。