我正在尝试使用R Caret软件包中的一系列机器学习算法(包括逻辑回归)来预测Spotify受欢迎程度得分。目的是根据音频特征预测曲目受欢迎程度,例如我的问题是,Spotify对于受欢迎程度得分的计算方式并不透明,但我知道它是基于许多因素,包括播放次数和曲目的最新程度。这意味着发布的天数将影响人气得分,因此我在模型中将days_released作为自变量包括在内以尝试对其进行控制。
因此,我有50个变量(days_released是其中之一)。我正在使用插入符号中的rfe函数执行功能选择,但是对于每种算法,days_released是唯一选择的变量。是否有人对如何解决此问题有任何建议或建议阅读?我想预测流行度,并探讨哪些跟踪功能与流行度有重要关系,并控制days_released。
我是否完全删除了days_released变量?
我是否保留它,但强迫rfe选择多个功能?
任何帮助将不胜感激!预先感谢!