Question

我想使用ruby从文件夹中提取所有网址，但我不知道有人帮助我。我在谷歌上扩展了很多时间，但我找不到任何建议

THX

Answer 1

Ruby的URI类可以扫描文档并返回所有URL。查看extract方法。

使用Dir::glob在使用Dir::entries或reads和File.read每个文件的扫描目录的循环中包裹它。

如果您愿意，可以使用Nokogiri编写一个基于解析器的快速扫描程序，但它可能会有相同的结果。 URI的方法更容易。

Answer 2

您可以使用Nokogiri来解析和搜索HTML文档。

> require 'nokogiri'
> require 'open-uri'
> doc = Nokogiri::HTML(open("http://www.example.com"))
> doc.css("a").map{|node| node.attr("href")}
 => ["http://www.iana.org/domains/special"]

从文件夹中提取所有URL

2 个答案: