我使用spark实现了Kmeans。但由于我的数据很大且功能数量非常大,我想使用Apache spark MLlib实现迷你批量kmeans。是否有关于如何实施它的任何示例或文档?
答案 0 :(得分:0)
下面的论文并未涵盖apache spark MLlib,但它确实通过了miniatch kmeans:
斯卡利,大卫。 “Web-Scale K-Means Clustering。”,第19届万维网国际会议论文集,1177-1178。 ACM,2010。http://dl.acm.org/citation.cfm?id=1772862