应用错误收集

注意在开始之前，此F-measure与精度和召回无关，其标题和定义取自此paper。

我有一个称为F-measure的功能，用于衡量给定文本中的形式。它主要用于文本的性别分类，这是我作为一个项目所做的工作。

F-measure 定义为：

F = 0.5 *（名词频率+形容词频率+介词频率+文章频率 - 代数频率。 - 动词频率 - 副词频率 - 感叹词频率+ 100）

其中频率取自给定文本（例如，博客文章）。

我想将此功能规范化以用于分类任务。最初，我的第一个想法是，因为值 F 受给定文本（text_length）中的单词数量的限制，我想首先采用 F 并除以text_length 。其次，最后，由于这个度量可以采用正值和负值（可以从等式中推断出来），然后我想到平方（ F / text_length）只得到一个正值。 / p>

尝试这个我发现标准化值似乎不太正确，因为我开始在（低于0.10）中获得我测试该功能的所有情况中的非常小的值，并且我认为原因可能是因为我我正在平算一个值，这个值基本上会使它变小，因为它是一个分数的平方。但是，如果我只想保证正值，则需要这样做。我不知道还有什么可以考虑改进规范化，以便在[0,1]内产生一个很好的分布，并且想知道是否存在某种策略来正确地规范化NLP特征。

我应该如何处理我的功能的规范化，以及我可能做错了什么？

NLP：如何正确地标准化性别分类功能？

1 个答案: