应用错误收集

从URL抓取文本和媒体

时间：2015-01-10 00:25:55

标签： javascript html css ruby web-scraping

我正在寻找一些有用的宝石红宝石用于刮擦目的。基本上，我希望能够从页面上刮掉主体。也就是说，只有主体及其媒体（图像）。没有侧边栏或页脚或导航栏类型的东西。

我知道抓取需要很多特殊性，比如了解类和ID等等。所以我想知道是否有一个工具可以做这样的事情？

一个很好的例子是＆＃34;阅读器视图可用＆＃34; iOS上的safari选项。它只显示页面中的原始内容。带有必需的标题和段落。

1 个答案:

答案 0 :(得分：0)

您还可以使用Css Selector Gadget查找您的课程。这应该有助于找到正确的标题和正文类或id。

Reader View无法节省带宽