我有几个功能可以投票决定某个数据项是否值得向我的用户展示。您可以将它们视为0到1之间的数字,其中1表示它是好的,0表示不值得向我的用户显示。我刚刚做了一个相当标准的事情,即为每个房产选择一个权重并执行加权和来确定一个指标来做出决定(很像一个感知单位)。
然而,有时不同的属性会相互压倒并产生不良结果。我认为基本问题是真正的最优函数是非线性的,当然这些加权和将给出的唯一规则是线性定义。为了试图解决这个问题,在加权和中被“压制”的一个特征中,我用它来乘以整个单个指标。这使得这个重要功能可以充当“看门人” - 如果这个功能太低,它就可以防止数据外出。
要通过标准加权和实现类似的效果,我必须使该特征的权重如此之高,以至于其他特征基本上没有发言权...基本上它回归到最佳的非线性规则,因为此功能在某些范围内非常重要,但在其他范围内则不然。
我想知道使用一个功能来增加像这样的整个结果有什么了解?是否有一个特定的原因,加权和是最常用的东西(简单除外)?
PS。一旦我有了更多的数据,我可能会使用标准的机器学习技术来实际学习规则,但是现在我正在手动训练样本数据集。我现在正在寻求简单,同时仍然努力让它运作良好。
答案 0 :(得分:2)
你的问题非常好。
你提到的是一个重要的问题。从理论和实践的角度来看都很重要:我应该如何使用我的功能来获得最佳效果?
让我举个例子,对于词性标注来说,文档的来源是没用的,因为大多数单词都以相同的方式使用,无论文章来自(文章来源)WSJ或者来自Wired。所以像文章起源这样的功能是“过度使用”来使用你的术语。但有时你会得到一个像“监视器”这样的词,如果你知道它出现在哪里,你几乎知道如何标记它(如果它来自WSJ:动词,如果它是有线的:名词)。
文档原点功能乍一看并不是一个有用的功能,但它是一个有用的元功能,关于我们试图标记的单词。在域名适应的术语中,它描述了域名。
您想要查看此类问题的一些关键字是:
另一个有用的信息是,线性分类器在捕获这些相互作用方面特别糟糕,您甚至将其描述为非线性。如果可能的话,你应该至少使用二次或RBF或更复杂的东西,至少有希望捕获它。