应用错误收集

假设我有一组变量（向量，所有变量都具有相同的长度 N ）： X1，X2，X3，X4，X5，X6。 ..Xn。和时间序列 Y （长度 N ）取决于某些变量X.

我需要一个算法来确定哪个变量 X 与 Y 最相关。即我需要丢弃最不重要的变量，并在 Y 上获得最具影响力的变量。

示例：

假设我们想确定影响特定IT网站的网络流量的因素。我们有5个关键字：keyword1，keyword2，keyword3，keyword4和keyword5。

我们说我们有关键字＆＃39; Google上搜索量（键1 = X1，键2 = X2，键3 = X3，键4 = X4，键5 = X5），总网络流量 Y 。我想确定上面的集合中的哪些关键字（X1，X2，X3，X4或X5）对该网站的总网络流量最有意义。我可以丢弃哪些变量以及哪些变量移动最多。（让我们说所有这些向量和时间序列都是标准化的，标准化的时间序列范围是0-100）

在数据集上查找最有意义的变量

1 个答案: