FlinkML 0.10.1用于训练的稀疏向量的多元线性回归

时间:2016-02-03 19:28:53

标签: vector sparse-matrix logistic-regression apache-flink flinkml

全部,

我试图通过如下所述的线性回归测试Flink ML 0.10.1:

https://ci.apache.org/projects/flink/flink-docs-master/libs/ml/multiple_linear_regression.html

我使用的是SparseVectors而不是DenseVector,但在尝试训练模型时遇到了这个问题:

java.lang.IllegalArgumentException: axpy only supports adding to a dense vector but got type class org.apache.flink.ml.math.SparseVector.
    at org.apache.flink.ml.math.BLAS$.axpy(BLAS.scala:60)
    at org.apache.flink.ml.optimization.GradientDescent$$anonfun$org$apache$flink$ml$optimization$GradientDescent$$SGDStep$2.apply(GradientDescent.scala:181)
    at org.apache.flink.ml.optimization.GradientDescent$$anonfun$org$apache$flink$ml$optimization$GradientDescent$$SGDStep$2.apply(GradientDescent.scala:177)
    at org.apache.flink.api.scala.DataSet$$anon$7.reduce(DataSet.scala:583)
    at org.apache.flink.runtime.operators.chaining.ChainedAllReduceDriver.collect(ChainedAllReduceDriver.java:93)
    at org.apache.flink.runtime.operators.MapDriver.run(MapDriver.java:97)
    at org.apache.flink.runtime.operators.BatchTask.run(BatchTask.java:489)
    at org.apache.flink.runtime.iterative.task.AbstractIterativeTask.run(AbstractIterativeTask.java:144)
    at org.apache.flink.runtime.iterative.task.IterationIntermediateTask.run(IterationIntermediateTask.java:92)
    at org.apache.flink.runtime.operators.BatchTask.invoke(BatchTask.java:354)
    at org.apache.flink.runtime.taskmanager.Task.run(Task.java:584)
    at java.lang.Thread.run(Thread.java:745)

FlinkML MLG不支持SparseVectors吗?

2 个答案:

答案 0 :(得分:1)

问题在于GradientDescent实现期望梯度向量的总和是密集的。这不是一个强大的限制因为对一组稀疏矢量求和的结果不必再次稀疏。此外,将第一个梯度向量转换为密集向量,然后将以下稀疏梯度向量添加到其中而不是一直添加2个稀疏向量通常更有效。

我已打开pull request来解决此问题。它应该在接下来的几天内合并。

答案 1 :(得分:0)

我查看了源代码,看起来就是这样。对那里的类型进行了明确的检查,左向量稀疏的情况引发了该错误。代码真的很难看,所以它可能只是一个临时版本,并会随着时间的推移而得到改进。您应该在邮件列表中指出它或在JIRA上打开一个问题。