红宝石中的大矩阵代数计算

时间:2013-11-01 16:59:25

标签: ruby csv matrix

我正在开发一个涉及使用大型数据矩阵进行计算的项目。我有10,000行和100列的CSV文件,其中有10个。目前,我正在运行一个后台作业,它从每个CSV读取数据,将其拉入数组,对数据运行一些矩阵乘法计算,然后移动到下一个CSV。我确信有更好的方法可以做到这一点,因为看起来处理工作所花费的大部分时间都花在打开CSV上。我的问题实际上归结为我应该如何存储当前在这些CSV文件中的数据,以便轻松访问它并以更有效的方式运行计算。任何帮助将不胜感激

修改

正如评论中所建议的那样,我想补充一点,矩阵密度为100%,数字都是浮点数。

3 个答案:

答案 0 :(得分:4)

对于任何类型的大数据,CSV都是非常非常无效的格式。鉴于您的所有数据都是数字,并且您的数据大小是一致的,因此紧凑的二进制格式将是最佳的。如果以网络字节顺序将数据存储为1,000,000个4字节整数的二进制文件,其中前100个是第一行,第二个是第二行,依此类推,它会将文件大小从12MB减少到大约8MB,并完全消除解析CSV的低效率(这实在是效率低下)。要将数据转换为此格式,请尝试运行此Ruby代码(我假设数据是CSV的二维数组):

newdat = data.flatten.map {|e| e.to_f}.pack("G*")

然后将newdat写入文件作为新数据:

f = File.open("data.dat", 'wb')
f.write(newdat)
f.close

从文件中解析此数据:

data = File.open("data.dat", 'rb').read.unpack("G*").each_slice(100).to_a

这会将数据设置为矩阵作为二维数组。

注意:我实际上无法为您提供硬数字,因为我没有任何巨大的CSV文件,里面装满了花车。但是,这应该更有效率。

答案 1 :(得分:2)

您是否考虑过使用Marshal将数组保存为二进制文件?我还没有使用它,但似乎很简单:

FNAME = 'matrix4.mtx'
a = [2.3, 1.4, 6.7]

File.open(FNAME, 'wb') {|f| f.write(Marshal.dump(a))}
b = Marshal.load(File.binread(FNAME)) # => [2.3,1.4,6.7]

当然,您必须将整个阵列读入内存,但根据当前标准,阵列看起来并不大。

答案 2 :(得分:1)

您始终可以将文件加载到NMatrix中,然后使用NMatrix#write以NMatrix二进制格式保存。 NMatrix仍然需要一个CSV读取器和写入器,但我的猜测是实现起来非常简单 - 或者您可以在issue tracker中请求它。

x.write("mymatrix.binary")

以后:

y = NMatrix.read("mymatrix.binary")
# => NMatrix

它可以处理密集和稀疏存储。