从URL抓取文本和媒体

时间:2015-01-10 00:25:55

标签: javascript html css ruby web-scraping

我正在寻找一些有用的宝石红宝石用于刮擦目的。基本上,我希望能够从页面上刮掉主体。也就是说,只有主体及其媒体(图像)。没有侧边栏或页脚或导航栏类型的东西。

我知道抓取需要很多特殊性,比如了解类和ID等等。所以我想知道是否有一个工具可以做这样的事情?

一个很好的例子是"阅读器视图可用" iOS上的safari选项。它只显示页面中的原始内容。带有必需的标题和段落。

1 个答案:

答案 0 :(得分:0)

使用Nokogiri

您还可以使用Css Selector Gadget查找您的课程。这应该有助于找到正确的标题和正文类或id。

Reader View无法节省带宽