此页面包含均值,最大值,方差等,但不包含中位数和模式。https://spark.apache.org/docs/1.1.1/mllib-statistics.html
我已使用此代码解析数据
JavaRDD<Vector> parseData = data .map(new Function<String, Vector>() {
/** * */
private static final long serialVersionUID = 1L;
public Vector call(String line) {
// del = " " String[] sArray = line.trim().split(delimiterFinal);
double[] values = new double[sArray.length];
for (int i = 0; i < sArray.length; i++) {
if (columnsSet.contains(i)) {
values[i] = Double.parseDouble(sArray[i]);
}
}
return Vectors.dense(values);
}
答案 0 :(得分:0)
模式更简单,只是显示最多的值。