如何在Dirichlet流程聚类中确定组分配

时间:2016-03-08 05:14:21

标签: process cluster-analysis probability distribution dirichlet

与Dirichlet聚类一样,dirichlet过程可以用以下表示:

  • 中餐厅流程
  • 坚持打破过程
  • Poly Urn Model

例如,如果我们考虑Chinese Restaurant Process,则流程如下:

  • 最初餐厅是空的
  • 第一个进入的人(爱丽丝)坐在一张桌子旁(选择一个 基)。
  • 第二个进入的人(鲍勃)坐在桌旁。
  • 他坐在哪张桌子上?
  • 他坐在 新表 ,概率为α/(1+α)
  • 他与Alice一起坐在 现有表 (意味着他将加入现有团队) 概率1/(1+α)
  • 第(n + 1)个人有可能坐在新桌旁 α/(n+α)α/(n+α),并且在表k中概率nk/(n+α)nk/(n+α), 其中nk是当前坐在表k的人数。

问题是:

最初,第一个人将加入,比如G1(即第1组),
现在第二个人将加入

new group      = G2 with probability α/(1+α) = P(N)  
existing group = G1 with probability 1/(1+α) = P(E)

现在,如果我计算新条目的概率,我将拥有P(N)P(E)两者的值。然后,

  • 我如何确定新条目将加入 G1 G2 组?
  • 是否会根据两种概率的值决定

As,

If (P(N) > P(E))  
then  
   _new entry_ will join G2    
AND  
If (P(E) > P(N))  
then
_new entry_ will join G1  

1 个答案:

答案 0 :(得分:0)

基于CRP表示,

  • 客户1坐在表1
  • 客户i,坐在预先占用的表k中,使用p_k,并在新表中使用p_new,其中

enter image description here
enter image description here

请注意,概率之和等于1.要查找表格分配,您只需掷硬币并选择相关表格。

例如,对于客户i,假设您具有以下概率向量

enter image description here

表示坐在表1的概率为0.2,表2为0.4,表3为0.3,新表为0.1。通过构建累积概率向量并绘制随机数,您可以对表进行采样。让我们说随机数为0.81,因此您的客户位于表3。