time-series - 使用聚簇时间序列进行Q学习

我是Q-learning的新手，我最近尝试将此算法应用于9个状态和2个可能的操作的问题。我正在考虑大量的时间序列，每个时间序列只有10个数据点，并希望在时间t = 10时选择两个动作。问题是大多数州的矩阵Q尚未更新，导致随机决策。

我正在考虑对时间序列进行聚类，并为每个聚类获得一个平均Q，我将根据每个特定系列的状态选择一个动作。

问题在于，采用多个Q矩阵的均值是否有意义，或者在这种情况下是否有其他方法可能更合适。

感谢您的帮助！