火花相关系数

时间:2016-06-25 10:53:57

标签: apache-spark statistics apache-spark-mllib statistics-bootstrap apache-spark-ml

我有一个特定的应用程序,我正在尝试验证我正在阅读的许多时间序列数据之间的强烈正关系。我应该详细说明:

  • 我有很多分配的演员,他们会产生一些 每个都有大量的时间序列数据流。的数量 演员*时间序列流非常大,所以按顺序使用它们 对于我的特定回归分析是非常昂贵的。所以我选择了 抽样,我得到了很好的估计。

  • 问题是;我需要验证这个想法,并为了 验证它,我想在随机之间做“相关系数” 这些时间序列的样本并创建高斯分布 它的结果,并指定相关的均值和平均值 演员们。显示哪些演员正在产生更多相关时间
    应用领域中的系列。

问题:

  1. 我是否选择了正确的方法来验证相关性是否存在, 所以我们应该期待采样来减少读数 实际数据?
  2. 还是有其他方法可以进行集体关联 分析

0 个答案:

没有答案