Question

我在Spark中有两组数据（我们称之为d1，d2）。我想进行一个双样本Kolmogorov-Smirnov检验，以测试它们潜在的流行分布函数是不同的。 MLLib的 Statistics.kolmogorovSmirnovTest 可以这样做吗？

文档提供了这个示例：

import org.apache.spark.mllib.stat.Statistics

val data: RDD[Double] = ... // an RDD of sample data

// perform a KS test using a cumulative distribution function of our making
val myCDF: Double => Double = ...
val testResult2 = Statistics.kolmogorovSmirnovTest(data, myCDF)

我尝试计算d2的经验累积分布函数（将其收集为Map）并将其与d1进行比较。

Statistics.kolmogorovSmirnovTest(d1, ecdf_map)

测试运行，但结果是错误的。

我做错了吗？是否有可能做到这一点？有什么想法吗？

感谢您的帮助！

Answer 1

在Spark中，Mllib KolmogorovSmirnovTest是一个采样和双面的。因此，如果您需要特定的双采样变体，则在此库中无法实现。但是，您仍然可以通过计算经验累积分布函数来比较数据集（我发现了一个库，所以我会更新这个答案，如果结果会有任何好处）或使用偏离正态分布。在这个例子中，我将使用后者。

通过KST统计数据与正态分布比较数据集

出于本次测试的目的，我生成了3个发行版：2 triangular看起来相似，exponential表示统计数据存在很大差异。

注意：   我找不到任何描述这种方法的科学论文可用于分布比较，因此这个想法主要是经验性的。

对于每个分布，您最常定义的是可以找到其CDF与正态分布之间具有相同全局最大距离的镜像分布。

下一步是使KS结果反对正态分布，给定平均值和标准偏差。我想象它们以获得更好的图片：

正如您所看到的，三角分布的结果（KS统计和p值）彼此接近，而指数分布则相反。正如我在笔记中所述，您可以通过镜像数据集轻松欺骗这种方法，但对于真实世界的数据，它可能没问题。

import org.apache.spark._ import org.apache.spark.rdd.RDD import org.apache.spark.mllib.stat.Statistics import org.apache.commons.math3.distribution.{ ExponentialDistribution, TriangularDistribution } import breeze.plot._ import breeze.linalg._ import breeze.numerics._ object Main { def main( args: Array[ String ] ): Unit = { val conf = new SparkConf() .setAppName( "SO Spark" ) .setMaster( "local[*]" ) .set( "spark.driver.host", "localhost" ) val sc = new SparkContext( conf ) // Create similar distributions val triDist1 = new TriangularDistribution( -3, 5, 7 ) val triDist2 = new TriangularDistribution( -3, 7, 7 ) // Exponential distribution to show big difference val expDist1 = new ExponentialDistribution( 0.6 ) // Sample data from the distributions and parallelize it val n = 100000 val sampledTriDist1 = sc.parallelize( triDist1.sample( n ) ) val sampledTriDist2 = sc.parallelize( triDist2.sample( n ) ) val sampledExpDist1 = sc.parallelize( expDist1.sample( n ) ) // KS tests val resultTriDist1 = Statistics .kolmogorovSmirnovTest( sampledTriDist1, "norm", sampledTriDist1.mean, sampledTriDist1.stdev ) val resultTriDist2 = Statistics .kolmogorovSmirnovTest( sampledTriDist2, "norm", sampledTriDist2.mean, sampledTriDist2.stdev ) val resultExpDist1 = Statistics .kolmogorovSmirnovTest( sampledExpDist1, "norm", sampledExpDist1.mean, sampledExpDist1.stdev ) // Results val statsTriDist1 = "Tri1: ( " + resultTriDist1.statistic + ", " + resultTriDist1.pValue + " )" val statsTriDist2 = "Tri2: ( " + resultTriDist2.statistic + ", " + resultTriDist2.pValue + " )" val statsExpDist1 = "Exp1: ( " + resultExpDist1.statistic + ", " + resultExpDist1.pValue + " )" println( statsTriDist1 ) println( statsTriDist2 ) println( statsExpDist1 ) // Visualize val graphCanvas = Figure() val mainPlot = graphCanvas .subplot( 0 ) mainPlot.legend = true val x = linspace( 1, n, n ) mainPlot += plot( x, sampledTriDist1.sortBy( x => x ).take( n ), name = statsTriDist1 ) mainPlot += plot( x, sampledTriDist2.sortBy( x => x ).take( n ), name = statsTriDist2 ) mainPlot += plot( x, sampledExpDist1.sortBy( x => x ).take( n ), name = statsExpDist1 ) mainPlot.xlabel = "x" mainPlot.ylabel = "sorted sample" mainPlot.title = "KS results for 2 Triangular and 1 Exponential Distributions" graphCanvas.saveas( "ks-sample.png", 300 ) sc.stop() } }

Apache Spark - 双样本Kolmogorov-Smirnov测试

1 个答案:

通过KST统计数据与正态分布比较数据集