应用错误收集

时间：2017-03-02 14:17:52

标签： apache-spark machine-learning

美好的一天，

我正在研究下一个问题并且对机器学习（ML）知之甚少：

我选择了spark作为ML计算的引擎，并找到了IDF模型（https://spark.apache.org/docs/2.0.0/ml-features.html#tf-idf）的例子。这是结果，结果是文章中术语的特征向量结束：

（8，[0,1,4]，[0.287 ...（8，[0,1,6]，[0.287 ...（8，[1,3,4]，[0.0,0] ...

（抱歉截断结果）

此时我卡住了。看起来我们可能需要为SQ计算相似的向量，并按最接近的顺序排序。不知道如何做到这一点。

前进的道路是什么？你能否分享/指出实施的例子？

提前谢谢你，

的Vitaliy

答案 0 :(得分：0)

这是适用于我的简短路线图（在非常小的数据集上验证）：