海葵忽略包含某个短语的网址链接

时间:2011-09-06 09:52:47

标签: ruby web-scraping anemone

我在ruby上运行带有海葵的网络刮刀,当我访问需要登录的网页时,我给服务器一些问题。

这些页面在网址中都有一个短语,例如“account”,我希望程序完全忽略,而不是转到包含此字符串的目标的任何链接。

我该怎么做?

1 个答案:

答案 0 :(得分:4)

海葵有skip_links_like method

  

<强> skip_links_like(*图案)
  为不应遵循的URL添加一个或多个正则表达式模式

添加类似

的内容
skip_links_like /\/account\//

应该照顾它:

Anemone.crawl("somesite.co.uk", :depth_limit => 1) do |anemone|
    anemone.skip_links_like /\/account\//
    #...
end