对于文本分类实验,我正在尝试计算类分布的加权随机基线。我有三个标签。这是我为两个标签找到的一些代码:'m'和'f'。
def wrb(distribution): # weighted random baseline
sum = 0
if isinstance(distribution,float):
elem2 = 1 - distribution
distribution = [distribution,elem2]
for prop in distribution:
sum += prop**2
return sum
distr = labels.count('m')/len(labels)
print('WRB', wrb(distr))
我的问题是我需要填写哪些标签,而不是distr = labels.count('m')/len(labels)
中的'm'?有规则还是我随机选择了我的三个标签中的一个?