我有多个分类器来确定事件描述是否属于某些类别,即摇滚音乐会,爵士乐之夜,古典音乐等。我创建了一个servlet,它使用LinearClassifier scoreOf函数返回事件描述数据的分数。
为了查看返回意外结果的案例,我调整了scoreOf函数(公共Counter scoreOf(Datum示例))以获得各个特征及其分数的数组,因此我可以理解最终得分如何到了。这在很大程度上起作用,即我主要有如下行: -
1 - # - jazz -0.6317620789568879
1 - # - saxo -0.2449097451977173
有人可以通过解释这些是什么以及如何确定这些分数来帮助吗? (我真的以为我只是在根据我的描述字符串的加权组件构建得分)。
(我很感激" CLASS"&" Len-xx"被设置为分类器的属性,我只是不明白他们为什么然后显示为得分他们自己的元素)
答案 0 :(得分:0)
对于您想要查看要素权重的内容,您还可以查看LinearClassifier的justificationOf()
。我认为这跟你写的一样......
问题:
CLASS功能用作课程先行或偏见术语。它将具有更积极的权重,因为该类在整体数据中更为常见。如果您使用useClassFeature
属性,您将获得此功能。但拥有它通常是一个好主意。
1-Len特征查看作为第1列的字符串的长度.31-Inf的长度超过30.这将再次具有关于这样的长度是否指示特定类别的权重。如果您使用binnedLengths
功能,则会使用此功能。仅当字段长度与目标类之间存在一些一般相关时,这才有用。