文章提取 - Ruby

时间:2014-01-23 04:49:02

标签: ruby ruby-on-rails-4 boilerpipe

是否有任何选项可以使用ruby从网页中仅提取内容。 (避免链接和其他东西)

2 个答案:

答案 0 :(得分:2)

要进行网页抓取,您应该将mechanizenokogiri一起用于dom解析。

答案 1 :(得分:0)

我会推荐Scrapy。它是Python,而不是Ruby,但是你可以用很少的努力做到这一点很棒。