是否有可以训练有序数据的机器学习回归算法?

时间:2016-04-07 09:23:30

标签: machine-learning regression

我有一个函数f(x):R ^ n - > R(对不起,有没有办法在这里做LaTeX?),我想建立一个机器学习算法,根据训练数据集中的一堆样本x估计任何输入点x的f(x)。如果我知道训练数据中每个x的f(x)值,这应该很简单 - 只需进行回归,或者采用附近点的加权平均值,或其他任何值。

然而,这不是我的训练数据的样子。相反,我有一堆点(x,y),我知道每对的f(x) - f(y)的值,但我不知道f的绝对值(x )对于任何特定的x。似乎应该有一种方法来使用这些数据来找到f(x)的近似值,但是在谷歌搜索之后我还没有找到任何东西;有像this这样的论文,但他们似乎认为训练数据是以每个实体的一组离散标签的形式出现的,而不是在实体对上有标签。

这只是在做些什么,但是我可以尝试使用f'(x)进行内核密度估算,然后进行积分得到f(x)吗?或者是那么疯狂,还是有一种已知的更好的技术?

2 个答案:

答案 0 :(得分:1)

你可以假设f是线性的,这会简化事情 - 如果f是线性的,我们知道:

f(x-y) = f(x) - f(y)

例如,假设您假设f(x)=< w,x>,使w成为您想要学习的参数。每个样本(x,y)和已知差异d的平方损失怎么样?

loss((x,y), d) = (f(x)-f(y) - d)^2
               = (<w,x> - <w,y> - d)^2
               = (<w, x-y> - d)^2
               = (<w, z> - d)^2 // where z:=x-y

这只是z = x-y

的平方损失

实际上,您需要为每对构造z = x-y,然后使用线性回归在输入z和输出d上学习f。

这个型号可能太弱而无法满足您的需求,但它可能是您应该尝试的第一件事。否则,一旦您离开线性假设,您可能会遇到困难的非凸优化问题。

答案 1 :(得分:0)

我没有看到获得绝对结果的方法。函数中的任何常量(f(x) = g(x) + c)都会消失,就像常量在积分中消失一样。