标签: time-series cluster-analysis q-learning
我是Q-learning的新手,我最近尝试将此算法应用于9个状态和2个可能的操作的问题。我正在考虑大量的时间序列,每个时间序列只有10个数据点,并希望在时间t = 10时选择两个动作。问题是大多数州的矩阵Q尚未更新,导致随机决策。
我正在考虑对时间序列进行聚类,并为每个聚类获得一个平均Q,我将根据每个特定系列的状态选择一个动作。
问题在于,采用多个Q矩阵的均值是否有意义,或者在这种情况下是否有其他方法可能更合适。
感谢您的帮助!