有人能给我一个清晰简单的最大熵分类定义吗?如果有人可以提供一个明确的比喻,那将是非常有帮助的,因为我正在努力理解。
答案 0 :(得分:4)
"最大熵"是" Least Informative"的同义词。你不会想要一个信息量最少的分类器。它是关于如何建立先验的。坦率地说,"最大熵分类"使用流行语的一个例子。
对于无信息先验的示例,请考虑给出一个六边形对象。如果对象被抛出,任何给定面部出现的概率是1/6。这将是你的起点。它提供的信息量最少。你真的不想从别的东西开始,否则你会偏向后来的计算。当然,如果您知道一方会更频繁地出现,那么您应该将其纳入您的先辈。
贝叶斯公式为P(H | E)= P(E | H)P(H)/ P(D) 其中P(H)是假设的先验,P(D)是所有可能分子的总和。
对于要插入缺失单词的文本分类,E是给定文档,H是给定单词。 IOW,假设是H是应该选择的单词,P(H)是给予单词的权重。
最大熵文本分类意味着:从信息量最小的权重(先验)开始,并优化以找到最大化数据可能性的权重,即P(D)。从本质上讲,它是EM算法。
简单的朴素贝叶斯分类器假设先前的权重与单词在文档中出现的次数成比例。但是,这会忽略单词之间的相关性。
所谓的 MaxEnt 分类器,将相关性考虑在内。
我无法想出一个简单的例子来说明这一点,但我可以想到一些相关性。例如," 缺少"在英语中应该给名词赋予更高的权重,但是如果一个朴素贝叶斯分类器的相对频率与给定名词相同,它可能会给动词赋予相同的权重。考虑缺少的MaxEnt分类器会给名词带来更多的权重,因为它们更有可能出现在上下文中。
答案 1 :(得分:1)
我还可以为约翰霍普金斯大学计算机科学系的 HIDDEN MARKOV AND MAXIMUM ENTROPY MODELS 提供建议。具体看6.6章。本书以PoS标签为例解释了最大熵,并将MEMM中的MaxEnt应用与隐马尔可夫模型进行了比较。也有解释到底什么是MaxEnt,背后有数学。
答案 2 :(得分:0)
(来自此处:https://arxiv.org/pdf/1711.07758.pdf):
(原始最大熵模型)假设数据集具有输入X和标签 Y,任务是使用X来找到对Y的良好预测。预测Yˆ需要最大化 条件熵H(Yˆ | X),同时与数据(X,Y)保持相同的分布。这是 公式为:
min -H(Yˆ | X)(1)
s.t。 P(X,Y)= P(X,Yˆ), \ sum(Yˆ)P(Yˆ | X)= 1
Berger等人,1996用拉格朗日乘数ωi作为指数形式解决了这个问题:
Pω(Yˆ = y | X = x)= 1 /Zω(x)exp(\ sum(i)ωifi(x,y))