http://www.example.com/books?_pop=mheader
与此匹配的正则表达式和URL中具有“书籍”的任何URL作为模式匹配之一是什么?该网站有一个书籍类别和其他各种子类别。如何遍历以搜索图书的所有网址?
require 'anemone'
Pattern = %r[(\/books)*]
Anemone.crawl("http://www.example.com/") do |anemone|
anemone.on_pages_like(Pattern) do |page|
puts page.url
end
end
答案 0 :(得分:3)
http://rubular.com/是测试Ruby正则表达式的有用工具。
正则表达式很简单,/http:\/\/.+(books)/
。它也匹配http://
以帮助确保它是一个网址。这是针对rubular test的http://www.example.com/reference-books-2300。
答案 1 :(得分:1)
您网址中匹配/图书的模式应该只是“/ books”
这是一个测试正则表达式http://regexpal.com的好网站,以确保您至少拥有正确的代码部分。