在数据集上查找最有意义的变量

时间:2016-09-23 02:52:50

标签: matlab correlation data-analysis

假设我有一组变量(向量,所有变量都具有相同的长度 N ): X1,X2,X3,X4,X5,X6。 ..Xn。和时间序列 Y (长度 N )取决于某些变量X.

我需要一个算法来确定哪个变量 X Y 最相关。即我需要丢弃最不重要的变量,并在 Y 上获得最具影响力的变量。

示例:

假设我们想确定影响特定IT网站的网络流量的因素。我们有5个关键字:keyword1,keyword2,keyword3,keyword4和keyword5。

我们说我们有关键字' Google上搜索量(键1 = X1,键2 = X2,键3 = X3,键4 = X4,键5 = X5),总网络流量 Y 。我想确定上面的集合中的哪些关键字(X1,X2,X3,X4或X5)对该网站的总网络流量最有意义。我可以丢弃哪些变量以及哪些变量移动最多。 (让我们说所有这些向量和时间序列都是标准化的,标准化的时间序列范围是0-100)

1 个答案:

答案 0 :(得分:0)

一种方法是使用特征选择svm。

我使用Feature Generation Machine成功完成了这项工作。 请检查此链接:http://www.tanmingkui.com/fgm.html