如何有效地将大数据与大量变量进行最佳匹配

时间:2016-04-08 19:11:35

标签: math statistics

我有一个包含1000万行和1,000个变量的数据集,我想最适合这些变量,所以我可以估计一个新的行值。我正在使用Jama的QR分解来做到这一点(欢迎提出更好的建议,但我认为这个问题适用于任何实现)。不幸的是,这需要太长时间

看来我有两个选择。要么我可以将数据拆分为1000个10,000个大小的块,然后对结果取平均值。或者我可以将每行(例如100行)相加,并将这些组合行粘贴到QR分解中。

一种或两种方式可能是数学灾难,我希望有人可以指出我正确的方向。

1 个答案:

答案 0 :(得分:0)

对于这样的大数据集,我不得不说你需要使用HDF5。 HDF5是分层数据格式v5。它们具有C / C ++实现API,以及针对不同语言的其他绑定。 HDF使用B树来保持数据集的索引。

HDF5受Java,MATLAB,Scilab,Octave,Mathematica,IDL,Python,R和Julia支持。

不幸的是,我对此并不了解。但是,我建议您通过简单的探索性互联网搜索开始您的研究!