我想使用ruby从文件夹中提取所有网址,但我不知道有人帮助我。我在谷歌上扩展了很多时间,但我找不到任何建议
THX
答案 0 :(得分:1)
Ruby的URI类可以扫描文档并返回所有URL。查看extract
方法。
使用Dir::glob
在使用Dir::entries
或reads
和File.read
每个文件的扫描目录的循环中包裹它。
如果您愿意,可以使用Nokogiri编写一个基于解析器的快速扫描程序,但它可能会有相同的结果。 URI的方法更容易。
答案 1 :(得分:0)
您可以使用Nokogiri来解析和搜索HTML文档。
> require 'nokogiri'
> require 'open-uri'
> doc = Nokogiri::HTML(open("http://www.example.com"))
> doc.css("a").map{|node| node.attr("href")}
=> ["http://www.iana.org/domains/special"]