NLP:如何正确地标准化性别分类功能?

时间:2015-02-17 00:42:54

标签: machine-learning nlp normalization feature-extraction

注意在开始之前,此F-measure与精度和召回无关,其标题和定义取自此paper

我有一个称为F-measure的功能,用于衡量给定文本中的形式。它主要用于文本的性别分类,这是我作为一个项目所做的工作。

F-measure 定义为:

F = 0.5 *(名词频率+形容词频率+介词频率+文章频率 - 代数 频率。 - 动词频率 - 副词频率 - 感叹词频率+ 100)

其中频率取自给定文本(例如,博客文章)。

我想将此功能规范化以用于分类任务。最初,我的第一个想法是,因为值 F 受给定文本(text_length)中的单词数量的限制,我想首先采用 F 并除以text_length 。其次,最后,由于这个度量可以采用正值和负值(可以从等式中推断出来),然后我想到平方( F / text_length)只得到一个正值。 / p>

尝试这个我发现标准化值似乎不太正确,因为我开始在(低于0.10)中获得我测试该功能的所有情况中的非常小的值,并且我认为原因可能是因为我我正在平算一个值,这个值基本上会使它变小,因为它是一个分数的平方。但是,如果我只想保证正值,则需要这样做。我不知道还有什么可以考虑改进规范化,以便在[0,1]内产生一个很好的分布,并且想知道是否存在某种策略来正确地规范化NLP特征。

我应该如何处理我的功能的规范化,以及我可能做错了什么?

1 个答案:

答案 0 :(得分:1)

如果您仔细阅读该文章,您会发现该指标已经正常化:

  然后

F将在0到100%之间变化

原因是"频率"在公式中计算如下:

  

此处的频率表示为属于特定类别的单词数相对于摘录中单词总数的百分比。

即。你应该按照总词数对它们进行标准化(正如你的建议)。但之后不要忘记将每一个乘以100。