r矩阵在线结构耗时太长

时间:2014-04-30 18:17:46

标签: r matrix statistics data-stream

这个问题出现在本周我问的previous序列中。

但一般来说我的问题如下:

  • 我有一个数据流的记录通过套接字输入 R ,我想做一些分析。

他们按顺序顺序来:

  1. 个人1 | 1 | 2 |时间戳1
  2. 个人2 | 4 | 10 |时间戳2
  3. 个人1 | 2 | 4 |时间戳3
  4. 我需要创建一个结构来维护这些记录。 previous问题讨论了主要观点,但通常我创建的结构如下:

                         *var1*     *var2*             *timestamp*
    - individual 1   | [1,2,3] |  [2,4,6]   | [timestamp1, timestamp3...]
    - individual 2   | [4,7,8] | [10,11,12] | [timestamp2, ...]
    

    重要信息 - 此结构在运行时创建并放大。我认为这不是最佳选择,因为创建时间太长。主要结构是矩阵,在每对内部个别变量我有列出的记录。

    1. 随着时间的推移,个人人数众多且变化很大。因此,如果没有经过一些记录,我就没有足够的信息来进行良好的分析。考虑通过将个人记录保存到磁盘来在R上运行时创建一些缓存之王。

    2. 我的完整数据库的数量大约为100 GB。我想主要通过每个人中的季节性块来分析它(取决于时间戳变量)。

    3. 随着我收集的记录数量的增加,我的结构创建时间过长。

    4. 使用数据矩阵的想法,每个对中的列表 - 变量是使用三维矩阵改编的,因为我没有在相同的时间戳进行观察。不知道这是不是一个好主意。

    5. 如果有人对此事有任何想法,我将不胜感激。

0 个答案:

没有答案