具有越来越多类的多类分类

时间:2015-04-27 11:00:41

标签: machine-learning classification

我有一个关于音乐收听历史的数据集:听到它的时间,收听的地方,外面的天气(还有很多其他功能即将推出)和track_id作为标签。

Listening history

我正在尝试预测在任何给定环境(时间+位置+天气)下我想要的音轨

我想对这些数据运行多类分类,但我遇到了这些问题:

  • 不断将我的track_ids映射到类[0..distinct_trackid_count]并返回
  • 我有很多课程(成千上万)
  • 课程数量不断增加,所以我总是要从头开始重新训练我的算法

我觉得多类分类不是我在这里需要的,我需要帮助来弄清楚如何解决这个问题

1 个答案:

答案 0 :(得分:1)

我可能会尝试一些事情(我不确定它们能否正常运作):

  1. 不要使用分类,使用回归:给定特征,回归将返回有理数。围绕它并选择具有该ID /号码的曲目来收听。这应该允许您使用任何在线学习算法,当新歌进来时,只需为您的算法提供其功能和目标。这样,您就不必为每首新歌进行全面的再培训;

  2. 使用最近邻居方法:给定一组功能,从最接近它的歌曲中找到一组功能,然后选择该歌曲。也不需要完全再培训,但可能效率低下。

  3. 您可能还想查看关系关联规则。