在Ruby中从CSV文件获取头文件的最简单方法是什么?

时间:2013-08-08 00:24:36

标签: ruby parsing csv

我需要做的就是从CSV文件中获取标题。

file.csv是:

"A", "B", "C"  
"1", "2", "3"

我的代码是:

table = CSV.open("file.csv", :headers => true)

puts table.headers

table.each do |row|
  puts row 
end

这给了我:

true
"1", "2", "3"

我一直在看Ruby CSV文档几个小时,这让我发疯。我确信必须有一个简单的单行程序可以将标题返回给我。有什么想法吗?

3 个答案:

答案 0 :(得分:12)

CSV.read似乎可以让您访问headers方法:

headers = CSV.read("file.csv", headers: true).headers
# => ["A", "B", "C"]

以上只是CSV.open("file.csv", headers: true).read.headers的捷径。你可以尝试使用CSV.open来实现它,但由于CSV.open在调用方法时实际上并没有读取文件,因此它无法知道标题是什么,直到它为止实际上读了一些数据。这就是为什么它只会在您的示例中返回true。读完一些数据后,它最终会返回标题:

  table = CSV.open("file.csv", :headers => true)
  table.headers
  # => true
  table.read
  # => #<CSV::Table mode:col_or_row row_count:2>
  table.headers
  # => ["A", "B", "C"]

答案 1 :(得分:6)

在我看来,最好的方法是:

headers = CSV.foreach('file.csv').first

请注意,使用CSV.read('file.csv'. headers: true).headers非常诱人,但问题是,CSV.read会在内存中加载完整的文件,因此会增加内存占用量,同时也会因为使用较大的文件而变得非常慢。请尽可能使用CSV.foreach。 以下是仅20 MB文件的基准:

Ruby version: ruby 2.4.1p111 
File size: 20M  
****************
Time and memory usage with CSV.foreach:
Time: 0.0 seconds
Memory: 0.04 MB
****************
Time and memory usage with CSV.read:
Time: 5.88 seconds
Memory: 314.25 MB

一个20MB的文件使用CSV.read将内存占用增加了314 MB,想象一下1GB文件将对您的系统做些什么。简而言之,请不要使用CSV.read,我做了,系统关闭了300MB文件。

进一步阅读: 如果您想了解更多相关信息,here是一篇关于处理大文件的非常好的文章。

以下是我用于基准CSV.foreachCSV.read的脚本:

require 'benchmark'
require 'csv'
def print_memory_usage
  memory_before = `ps -o rss= -p #{Process.pid}`.to_i
  yield
  memory_after = `ps -o rss= -p #{Process.pid}`.to_i
  puts "Memory: #{((memory_after - memory_before) / 1024.0).round(2)} MB"
end

def print_time_spent
  time = Benchmark.realtime do
    yield
  end
  puts "Time: #{time.round(2)} seconds"
end

file_path = '{path_to_csv_file}'
puts 'Ruby version: ' + `ruby -v`
puts 'File size:' + `du -h #{file_path}`
puts 'Time and memory usage with CSV.foreach: '
print_memory_usage do
  print_time_spent do
    headers = CSV.foreach(file_path, headers: false).first
  end
end
puts 'Time and memory usage with CSV.read:'
print_memory_usage do
  print_time_spent do
    headers = CSV.read(file_path, headers: true).headers
  end
end

答案 2 :(得分:0)

如果您想要更短的答案,可以尝试:

headers = CSV.open("file.csv", &:readline)
# => ["A", "B", "C"]