所以我有一个.csv
文件,我已导入数组。它们都是逗号分隔的所以我已经为他们做了一个很好的数组。
现在我正在尝试查找匹配id的记录,这样我就可以删除重复项,只保留最后遇到的内容。例如,使用ID
。
我已经导入到数组但由于某种原因我无法获得像uniq这样的工具来显示新的唯一列表,即使我在它上面执行.length,它会返回正确的行数。
非常感谢任何帮助。
代码
lines = []
i = 0
file = File.open("./properties.csv", "r")
elements = Array[]
element2 = Array[]
output = Array[]
while (line = file.gets)
i += 1
# use split to break array up using commas
arr = line.split(',')
elements.push({ id: arr[0], streetAddress: arr[1], town: arr[2], valuationDate: arr[3], value: arr[4] })
end
file.close
# Loop through array and sort nicely
element2 = elements.group_by { |c| c[:id] }.values.select { |elements| elements.size > 1 }
output = (element2.uniq)
puts output
puts element2.length
SAMPLE .CSV FILE
ID,Street address,Town,Valuation date,Value
1,1 Northburn RD,WANAKA,1/1/2015,280000
2,1 Mount Ida PL,WANAKA,1/1/2015,280000
3,1 Mount Linton AVE,WANAKA,1/1/2015,780000
1,1 Northburn RD,WANAKA,1/1/2015,330000
2,1 Mount Ida PL,WANAKA,1/1/2015,330000
3,1 Mount Linton AVE,WANAKA,1/1/2015,830000
1,1 Northburn RD,WANAKA,1/1/2016,340000
2,1 Mount Ida PL,WANAKA,1/1/2016,340000
3,1 Mount Linton AVE,WANAKA,1/1/2016,840000
4,1 Kamahi ST,WANAKA,1/1/2016,215000
5,1 Kapuka LANE,WANAKA,1/1/2016,209000
6,1 Mohua MEWS,WANAKA,1/1/2016,620000
7,1 Kakapo CT,WANAKA,1/1/2016,490000
8,1 Mt Gold PL,WANAKA,1/1/2016,1320000
9,1 Penrith Park DR,WANAKA,1/1/2016,1310000
答案 0 :(得分:5)
所以我实际上交换了使用哈希的方法。这似乎自动删除重复并留下最后遇到的记录完好无损?谁能在这里解决一些问题?
require 'csv'
element = {}
CSV.foreach("properties.csv", :headers => true, :header_converters => :symbol) do |row|
element[row.fields[0]] = Hash[row.headers[1..-1].zip(row.fields[1..-1])]
end
puts element["1"]
element.each do |key, value|
puts key
puts value
end
puts "#{element.length} records returned"
要保留第一个匹配元素而不是最后一个,您可以在分配值之前进行密钥存在检查。这可以这样做:
CSV.foreach("properties.csv", :headers => true, :header_converters => :symbol) do |row|
key = row.fields[0]
if !element.key?(key)
element[key] = Hash[row.headers[1..-1].zip(row.fields[1..-1])]
end
end
也可以像这样写得更有效率:
CSV.foreach("properties.csv", :headers => true, :header_converters => :symbol) do |row|
element[row.fields[0]] ||= Hash[row.headers[1..-1].zip(row.fields[1..-1])]
end
请注意,保留密钥的第一个找到记录的这些方法将比保留密钥的最终找到记录的版本执行得更好。这是因为工作避免,主要是产生哈希值,这在此代码中使用slice
和zip
完成。