从txt文件ruby导入数据的rake任务?

时间:2015-12-07 23:18:19

标签: ruby ruby-on-rails-3 rake

我想在Ruby中将数据从txt文件导入数据库。我试图创建一个rake任务,并努力寻找一种优雅的方法。

到目前为止

My Rake任务:

desc "Import schools." 
  task :import_schools => :environment do
    File.open(File.join(Rails.root, "imports", "schools.txt"), "r").each do |line|
        if ! line.valid_encoding?
          s = line.encode("UTF-16be", :invalid=>:replace, :replace=>"?").encode('UTF-8')
          s.gsub(/dr/i,'med')
          description, time, standards, books, choices = s.strip.split("\t")
          u = ImportResult.new(:description => description, :time => time)
          u.save
      end
    end
  end

我的txt文件数据如:

primary 23484775884 standard:fifth book:science choice:maths name:Joseph city:London
secondary 46537728836 standard:fourth book:english choice:maths name:Jain city:Manchester
.........

我想将这些记录中的每一条插入ImportResult数据库,并忽略每条记录的namecity

预期结果

ImportResult Table:

id: 1
description: primary
time: 23484775884
standard: fifth
bookname: science

由于

1 个答案:

答案 0 :(得分:1)

这里的主要挑战是:如何将文本文件中的一行转换为我可以传递给MyModel.create的属性哈希?由于文本文件中的每一行都具有相同顺序的字段,因此一种简单的方法是使用正则表达式:

LINE_TO_ATTRS_EXPR = /
  \A
  (?<description>\w+)\s+
  (?<time>\d+)\s+
  standard:(?<standard>\w+)\s+
  book:(?<book>\w+)\s+
  choice:(?<choice>\w+)\s
/x

def line_to_attrs(line)
  matches = LINE_TO_ATTRS_EXPR.match(line)
  Hash[ matches.names.zip(matches.captures) ]
end

p line_to_attrs("primary 23484775884 standard:fifth book:science choice:maths name:Joseph city:London")
# => { "description" => "primary",
#      "time" => "23484775884",
#      "standard" => "fifth",
#      "book" => "science",
#      "choice" => "maths" }

我在此假设time字段始终是一串数字(\d+),并且这些字段由空格(\s+)分隔。

另一种方法是在空格上拆分线,然后在冒号(:)上拆分这些部分,并使用左边的部分作为键,右边的部分作为值。由于前两个字段的格式不同,我们首先将它们从数组中拉出。然后我们可以使用each_with_object将它们放入哈希,跳过我们不想要的密钥:

def line_to_attrs(line)
  attrs = {}
  attrs[:description], attrs[:time], *rest = line.split(/\s+/)

  rest.each_with_object(attrs) do |part, attrs|
    key, val = part.split(':')
    next if key =~ /^(name|city)$/
    attrs[key.to_sym] = val
  end
end

无论您选择哪种方法,现在都可以将其应用于每一行,以获取要传递给ImportResult.create!的属性哈希:

File.open(Rails.root + "imports/schools.txt", "r") do |file|
  ImportResult.transaction do
    file.each_line do |line|
      ImportResult.create!(line_to_attrs(line))
    end
  end
end

请注意,我使用的是File.open(...) do ...而不是File.open(...).each。将open与块一起使用可确保在操作完成时关闭文件,即使发生错误也是如此。

但是,如果输入很大,您可能会发现这很慢。这是因为您要为每一行创建一个ActiveRecord对象并一次执行一次插入。在交易中执行此操作有帮助,但只有这么多。如果性能成为问题,我建议查看activerecord-import gem。