在Hierarchical Dirichlet Process中,作者使用中餐馆特许经营权对HDP进行了解释。它说每个餐厅有很多桌子,不同的桌子可能在一个餐厅共用一道菜。这里的菜我们可以视为文档中的一个主题,那么如何理解每个文档中的表?我认为不同的桌子应该订购不同的菜肴,如果两张桌子有相同的菜,那么为什么不把它们合并成一个呢?非常感谢。
答案 0 :(得分:1)
在中餐厅特许经营(CRF)中,每个文件都是一个餐厅,每个单词都是一个客户,集群参数是从全局菜单中提供给餐桌的菜肴。顾客进入一家餐馆并坐在一张桌子上,其概率与已经在餐桌上的顾客数量成正比,或者坐在一张概率为alpha的新餐桌上。然后为新表分配特定的菜肴,其概率与已经服务该菜肴的餐桌数量成比例,或者具有概率伽玛的新餐具。
因此,对于每个客户,我们都有一个将客户映射到表的索引,对于每个表,我们都有一个索引,将表映射到其中一个菜。吉布斯采样算法,首先对与数据相关联的表进行采样,然后对与每个表相关联的菜肴进行采样。有关详细信息,请参阅Yee Whye Teh's implementation。