“孤立的符号概率英语”是什么意思

时间:2012-03-05 10:20:46

标签: nlp entropy

在一张纸条中,我发现了这句话:

  

使用英语的孤立符号概率,你可以找到语言的熵。

“孤立符号概率”的实际含义是什么?这与信息源的熵有关。

1 个答案:

答案 0 :(得分:3)

知道音符来自哪里以及上下文是什么会很有帮助,但即使没有它,我也很确定这只是意味着他们使用个别符号的频率(例如字符)作为熵的基础,而不是例如联合概率(字符序列),或条件概率(一个特定字符)跟着另一个)。

因此,如果你有一个字母X = {a,b,c,...,z}和一个概率P(a),P(b),...,每个字符出现在文本中(例如,基于在数据示例中找到的频率上,你通过计算每个字符x 然后取所有的总和。那么,很明显,你已经使用了每个字符孤立的概率,而不是每个字符在上下文中的概率。

但请注意,您找到的注释中的术语符号不一定是指字符。它可能引用单词或其他文本单元。然而,他们所提出的观点是,他们将熵的经典公式应用于个别事件的概率(字符,单词,等等),不是复杂或条件事件的概率。