TLDR-我想对CDR数据进行聚类,这些数据代表了用户在通话,使用SMS或互联网时连接的天线。
标签为:location(8 hex digits), part_of_day(night,morning-noon,afternoon,evening),
workday\weekend,day_of_week, num of days of connection to this antenna
我想根据这些标签检测体育馆,购物中心等景点。
我有一个记录数据集,每个记录带有5个标签,每个标签的重要性不同。
我知道要根据重要性标记顺序,但不知道差异,因此两条记录之间的差异如下所示:
a*dist of label1 + b*dist of label2 + c*dist of label3
使得a + b + c = 1。
位置上的差异比当天更重要,因此每个功能之间的重要性也不同。
在帖子中,有人提议使用HDBSCAN,这很好,我认为也可以使用PCA \ AU \ RBM来减少数据的尺寸,并可能获得更好的结果。
在每种方法中,都会生成新标签,也许我不知道每个标签的重要性。
即使我缩小尺寸,是否也可以保存这些功能的重要性? 在这种情况下最好不要减小尺寸?也许扩展其中的一些,这将是算法的输入?