用KNN还是K-Means来减少特征的维数?

时间:2019-11-07 20:28:17

标签: python classification k-means knn

  

减少功能数量/概述每个国家/地区在给定类别中的表现。

     
    
        
  • 此处的类别将基于现有功能创建。

  •     
  • 在20年中,数据集由52个系列/功能(GDP,出口,LPI等)组成的大约80个国家/地区组成。

  •     
  • 某些国家/地区的信息比其他国家更完整,某些功能的国家/地区比其他国家更完整。

  •     
  • 功能不一定具有相同的规模!(例如:GDP可能为数百万,而LPI仅为1-5)

  •     
  

尝试创建一些封装52个现有特征的新特征,然后为每个新的X个特征指定字母等级。

当前不专注于时间序列方面,但是最终将希望随着时间的推移跟踪给定类别的每个国家/地区的成绩。

  

我当时正在考虑使用 Kmeans或KNN 创建新功能(?)

     

这是减少正在检查的功能/从中收集信息的最佳方法吗?

     

考虑到可伸缩性问题,这是否有可能?

[Country  Year  Feature_1  Feature_2  Feature_3 ...]

USA  2001  GDP  Exports  LPI  ...

USA  2002  GDP  Exports  LPI  ...

USA  2003  GDP  Exports  LPI  ...


UK  2001  GDP  Exports  LPI  ...

UK  2002  GDP  Exports  LPI  ...

UK  2003  GDP  Exports  LPI  ...

...

TO

[Country  Year  New_Feature_X]

USA  2001  A
USA  2002  A
USA  2003  B+

UK  2001  B
UK  2002  B+
UK  2003  B

...

  

X的新功能将以前功能的几个汇总为 ONE

     

在这种情况下,New_feature类似于“金融”或“跨国贸易级”等。

我认为有一种方法可以避免手动创建这些“新功能”吗?

我知道这里可能存在可伸缩性问题-但这似乎仍然是减少这种尺寸的最简单方法...

0 个答案:

没有答案