美好的一天,
我正在研究下一个问题并且对机器学习(ML)知之甚少:
我选择了spark作为ML计算的引擎,并找到了IDF模型(https://spark.apache.org/docs/2.0.0/ml-features.html#tf-idf)的例子。这是结果,结果是文章中术语的特征向量结束:
(8,[0,1,4],[0.287 ...(8,[0,1,6],[0.287 ...(8,[1,3,4],[0.0,0] ...
(抱歉截断结果)
此时我卡住了。看起来我们可能需要为SQ计算相似的向量,并按最接近的顺序排序。不知道如何做到这一点。
前进的道路是什么?你能否分享/指出实施的例子?
提前谢谢你,
的Vitaliy
答案 0 :(得分:0)
这是适用于我的简短路线图(在非常小的数据集上验证):