Question

http://www.example.com/books?_pop=mheader

与此匹配的正则表达式和URL中具有“书籍”的任何URL作为模式匹配之一是什么？该网站有一个书籍类别和其他各种子类别。如何遍历以搜索图书的所有网址？

require 'anemone'
Pattern = %r[(\/books)*]
Anemone.crawl("http://www.example.com/") do |anemone|
  anemone.on_pages_like(Pattern) do |page|
    puts page.url
  end
end

Answer 1

http://rubular.com/是测试Ruby正则表达式的有用工具。

正则表达式很简单，/http:\/\/.+(books)/。它也匹配http://以帮助确保它是一个网址。这是针对rubular test的http://www.example.com/reference-books-2300。

Answer 2

您网址中匹配/图书的模式应该只是“/ books”

这是一个测试正则表达式http://regexpal.com的好网站，以确保您至少拥有正确的代码部分。

Ruby中的正则表达式

2 个答案: