评估指标与二进制分类相关的功能有何区别?

时间:2013-09-12 02:57:17

标签: machine-learning nlp

我很难在脑海中试图将这两个概念分开。

我知道评估指标(例如BLEU)可用于衡量给定输入相对于参考的质量(如机器翻译中)。但这个分数是否可以用于将句子分为两类?例如,具有高于0.50的特定评估度量分数的句子将被给予“是”,而低于0.50的所有句子给出“否”。

此外,这可能与机器学习算法中使用的功能有关吗?例如,假设短语“过去”是数据的一个可能特征,然后可用于将输入分类为具有此功能。

1 个答案:

答案 0 :(得分:1)

在这里,您似乎完全忽略了基本概念的含义。

  • 评估指标是一个函数,给出:一些模型/算法答案和一些黄金标准(真实答案,由专家提供)衡量您的模型/算法有多好。它没有任何东西(好的,没有什么,因为它经常在交叉验证和调整模型的参数中使用)与实际的分类过程有关。 用于做出任何决定,它是一种量化结果有多好的方法。
  • 功能只是数据表示,因此在某种意义上说,它们是问题的一部分,并且可靠地正确选择功能(也称为功能工程 )对您的模型质量有很大影响。但“数据的一个可能的特征,然后可用于将输入分类为具有此功能与否”是相当无意义的。 Feature是某个函数的值,通常称为特征检测器,让我们调用它f,它应用于您的输入对象x返回一些值,例如 - number或0/1(有没有/有一些现象的代表。例如,这样的特征可能是(对于文本文档)“给定的文本包含过去的子字符串”,所以f("I like trains")=false (0)f("I liked trains in the past")=1 (true)。你不训练分类器来检测特征,你提取它们使用一些简单(高效)的算法来表示你的数据,然后用它们将它们分类到某些类。一旦你有f,就没有必要“将输入分类为具有这个功能”,因为{{1 完全这个。当然,实际上可以训练分类器,以便在某些数据点不可用时“填充”缺失的特征,但这是一个更高级的主题,它确实似乎不是你问题的一部分。

我建议你在Andrew Ng的机器学习中观看一些精彩的介绍视频,在课程平台上可用:https://class.coursera.org/ml/lecture/preview