我即将尝试使用群集算法来群集文件属性(例如访问时间)。
scikit是否支持命名数据的聚类,即如何在聚类算法运行后检索文件名?
有没有办法用训练数据存储元数据,例如文件名?这些元数据应该能够在特征缩放,人工特征的引入等方面存在。
答案 0 :(得分:1)
目前无法在scikit-learn中将名称或属性附加到行。这将很快改变(https://github.com/scikit-learn/scikit-learn/issues/4497)。但就目前而言,自己跟踪这个很容易。数据点的顺序与您获得的集群标签的顺序相同,因此第一个集群标签对应于第一个文件名等