斯坦福分类器:什么是非ngram activeFeatures用于确定得分基准?

时间:2017-06-30 08:36:58

标签: stanford-nlp

我有多个分类器来确定事件描述是否属于某些类别,即摇滚音乐会,爵士乐之夜,古典音乐等。我创建了一个servlet,它使用LinearClassifier scoreOf函数返回事件描述数据的分数。

为了查看返回意外结果的案例,我调整了scoreOf函数(公共Counter scoreOf(Datum示例))以获得各个特征及其分数的数组,因此我可以理解最终得分如何到了。这在很大程度上起作用,即我主要有如下行: -
1 - # - jazz -0.6317620789568879
1 - # - saxo -0.2449097451977173

正如我所期待的那样。但是我也有一对,我不明白: - CLASS 1.4064007882810108
1-Len-31-Inf 0.4569598446321162

有人可以通过解释这些是什么以及如何确定这些分数来帮助吗? (我真的以为我只是在根据我的描述字符串的加权组件构建得分)。

(我很感激" CLASS"&" Len-xx"被设置为分类器的属性,我只是不明白他们为什么然后显示为得分他们自己的元素)

1 个答案:

答案 0 :(得分:0)

对于您想要查看要素权重的内容,您还可以查看LinearClassifier的justificationOf()。我认为这跟你写的一样......

问题:

CLASS功能用作课程先行或偏见术语。它将具有更积极的权重,因为该类在整体数据中更为常见。如果您使用useClassFeature属性,您将获得此功能。但拥有它通常是一个好主意。

1-Len特征查看作为第1列的字符串的长度.31-Inf的长度超过30.这将再次具有关于这样的长度是否指示特定类别的权重。如果您使用binnedLengths功能,则会使用此功能。仅当字段长度与目标类之间存在一些一般相关时,这才有用。