Question

我已经制作了一个函数make_rule(text, scope=1)，该函数仅遍历字符串并生成一个字典，该字典用作Markovian文本生成器的规则（范围是链接字符的数量，而不是单词的数量）。 / p>

>>> rule = make_rule("abbcad", 1)
>>> rule
{'a': ['b', 'd'], 'b': ['b', 'c'], 'c': ['a']}

我的任务是计算该系统的熵。为了做到这一点，我想我需要知道：

一个值在字典中出现的频率，即它的总出现频率。
在字典中给定键的值（即其相对频率）出现的频率。

是否可以快速获取字典中每个值的两个数字？

对于上面的示例，我需要以下输出：

'a' total: 1, 'a'|'a': 0, 'a'|'b': 0, 'a'|'c': 1
'b' total: 2, 'b'|'a': 1, 'b'|'b': 1, 'b'|'c': 0
'c' total: 1, 'c'|'a': 0, 'c'|'b': 1, 'c'|'c': 0
'd' total: 1, 'd'|'a': 1, 'a'|'b': 1, 'a'|'c': 1

我想很容易推断出'a'的总数，所以也许只为字典中出现的每个唯一项输出一个三元组列表：

[[('a', 'a', 0), ('a', 'b', 0), ('a', 'c', 1)], [('b', 'a', 1), ('b', 'b', 1), ('b', 'c', 0)], ...]

Answer 1

除了遍历单词的字符，计算字典的每个列表中的出现次数并将其累加到最后，我想不出一种快捷的方法：

alphabet = sorted(set("abbcad"))
rule = {'a': ['b', 'd'], 'b': ['b', 'c'], 'c': ['a']}

totalMatrix = []
for elem in alphabet:
    total = 0
    occurences = []
    for key in rule.keys():
        currentCount = rule[key].count(elem)
        total += currentCount
        occurences.append((elem,key,currentCount))
    totalMatrix.append([elem, total] + occurences)

for elem in totalMatrix:
    print(elem)

totalMatrix的内容将是：

['a', 1, ('a', 'a', 0), ('a', 'b', 0), ('a', 'c', 1)]
['b', 2, ('b', 'a', 1), ('b', 'b', 1), ('b', 'c', 0)]
['c', 1, ('c', 'a', 0), ('c', 'b', 1), ('c', 'c', 0)]
['d', 1, ('d', 'a', 1), ('d', 'b', 0), ('d', 'c', 0)]

Answer 2

我将只处理“给定键中的值出现在字典中的频率”，因为您已经说过“总值在字典中出现的频率”很容易推断。

如果您只想查找给定键值的相对频率，则可以通过Counter个对象中的dict个来轻松获得它：

from collections import Counter

rule = {'a': ['b', 'd'], 'b': ['b', 'c'], 'c': ['a']}

freq = {k: Counter(v) for k, v in rule.items()}

…这样会给您一个freq：

{
    'a': Counter({'b': 1, 'd': 1}),
    'b': Counter({'b': 1, 'c': 1}),
    'c': Counter({'a': 1})
}

…，这样您就可以在给定键'a'的情况下获得'c'的相对频率：

>>> freq['c']['a']
1

由于Counter对象为不存在的键返回0，因此您也会像预期的那样获得零频率：

>>> freq['a']['c']
0

如果您需要问题中指定的三元组列表，则可以做一些额外的工作。这是执行此操作的功能：

def triples(rule):               
    freq = {k: Counter(v) for k, v in rule.items()}
    all_values = sorted(set().union(*rule.values()))      
    sorted_keys = sorted(rule)
    return [(v, k, freq[k][v]) for v in all_values for k in sorted_keys]

在这里，我认为唯一可能不言自明的是all_values = ...行，该行：

创建一个空的set()
使用rule.values()中列表的所有单个元素来产生该集合的union()（注意使用argument-unpacking *运算符）
将结果转换为sorted()列表。

如果您仍然有原始文本，则可以使用例如改为all_values = sorted(set(original_text))。

这里正在起作用：

>>> triples({'a': ['b', 'd'], 'b': ['b', 'c'], 'c': ['a']})
[
    ('a', 'a', 0), ('a', 'b', 0), ('a', 'c', 1),
    ('b', 'a', 1), ('b', 'b', 1), ('b', 'c', 0),
    ('c', 'a', 0), ('c', 'b', 1), ('c', 'c', 0),
    ('d', 'a', 1), ('d', 'b', 0), ('d', 'c', 0)
]

计算表示马尔可夫链规则的字典中的值的总和相对频率

2 个答案: