使用nokogiri获取所有独特的网址

时间:2017-12-03 17:45:40

标签: ruby nokogiri open-uri

我已经工作了一段时间,试图使用.uniq方法从网站(在/ informatics路径中)生成一个唯一的URL列表。无论我尝试什么,我在尝试生成列表时都会遇到方法错误。我确定这是一个语法问题,我希望有人能指出我正确的方向。

一旦我得到列表,我就需要通过ActiveRecord将这些存储到数据库中,但在开始围绕它之前我需要唯一的列表。

require 'nokogiri'
require 'open-uri'
require 'active_record'

ARGV[0]="https://www.nku.edu/academics/informatics.html"

ARGV.each do |arg|
  open(arg) do |f|
    # Display connection data
    puts "#"*25 + "\nConnection: '#{arg}'\n" + "#"*25
    [:base_uri, :meta, :status, :charset, :content_encoding,
    :content_type, :last_modified].each do |method|
      puts "#{method.to_s}: #{f.send(method)}" if f.respond_to? method
    end

    # Display the href links
    base_url = /^(.*\.nku\.edu)\//.match(f.base_uri.to_s)[1]
    puts "base_url: #{base_url}"

    Nokogiri::HTML(f).css('a').each do |anchor|
      href = anchor['href']
      # Make Unique

      if href =~ /.*informatics/
        puts href
        #store stuff to active record
       end
     end
  end
end

1 个答案:

答案 0 :(得分:1)

替换Nokogiri :: HTML部分以仅选择与/*.informatics/匹配的href属性,然后您可以使用uniq,因为它已经是一个数组:

require 'nokogiri'
require 'open-uri'
require 'active_record'

ARGV[0] = 'https://www.nku.edu/academics/informatics.html'

ARGV.each do |arg|
  open(arg) do |f|
    puts "#{'#' * 25} \nConnection: '#{arg}'\n #{'#' * 25}"

    %i[base_uri meta status charset content_encoding, content_type last_modified].each do |method|
      puts "#{method.to_s}: #{f.send(method)}" if f.respond_to? method
    end

    puts "base_url: #{/^(.*\.nku\.edu)\//.match(f.base_uri.to_s)[1]}"

    anchors = Nokogiri::HTML(f).css('a').select { |anchor| anchor['href'] =~ /.*informatics/ }
    puts anchors.map { |anchor| anchor['href'] }.uniq
  end
end

请参阅output