标签: recommendation-engine reinforcement-learning
多臂匪(CMAB)和“尝试和统计”之间的区别是什么?
根据我的理解,我认为CMAB策略是相同的,它会保留一部分网络流量以利用不同的选择,然后统计并修复原始分布...
有人可以告诉我区别吗?
答案 0 :(得分:0)
我对此有所了解。
CMAB是一种算法,可以保证在有限的遗憾中找到结果。