我在ruby上运行带有海葵的网络刮刀,当我访问需要登录的网页时,我给服务器一些问题。
这些页面在网址中都有一个短语,例如“account”,我希望程序完全忽略,而不是转到包含此字符串的目标的任何链接。
我该怎么做?
答案 0 :(得分:4)
<强> skip_links_like(*图案)强>
为不应遵循的URL添加一个或多个正则表达式模式
添加类似
的内容skip_links_like /\/account\//
应该照顾它:
Anemone.crawl("somesite.co.uk", :depth_limit => 1) do |anemone|
anemone.skip_links_like /\/account\//
#...
end