标签: javascript html css ruby web-scraping
我正在寻找一些有用的宝石红宝石用于刮擦目的。基本上,我希望能够从页面上刮掉主体。也就是说,只有主体及其媒体(图像)。没有侧边栏或页脚或导航栏类型的东西。
我知道抓取需要很多特殊性,比如了解类和ID等等。所以我想知道是否有一个工具可以做这样的事情?
一个很好的例子是"阅读器视图可用" iOS上的safari选项。它只显示页面中的原始内容。带有必需的标题和段落。
答案 0 :(得分:0)
使用Nokogiri
您还可以使用Css Selector Gadget查找您的课程。这应该有助于找到正确的标题和正文类或id。
Reader View无法节省带宽