确定某些函数的系数

时间:2013-05-04 04:02:14

标签: statistics regression data-processing

我的任务可能与数据分析甚至神经网络有关。

我们有合作伙伴的数据来源,就业门户网站。源值是与特定员工相关的不同属性的数组:

  
      
  • 他的\她的性别,
  •   
  • 年龄,
  •   
  • 多年经验,
  •   
  • 投资组合(已完成项目的数量),
  •   
  • 专业和专业(网页设计,网络编程,管理等),
  •   
  • 许多其他(完全约20-30)
  •   

每位员工都有自己的薪水(每小时)费率。所以,从数学上讲,我们有一些功能

  

F(attr1,attr2,attr3,...)= A * attr1 + B * attr2 + C * attr3 + ...

系数未知。但是我们知道指定参数的函数结果(比方说,我们知道有20年经验的男性程序员和投资组合中的10件作品每小时40美元)。

所以我们必须找到这些系数(A,B,C ......),这样我们就可以预测任何员工的工资。这是最重要的目标。

另一个目标是找出哪些参数最重要 - 换句话说,哪些参数会导致函数结果发生重大变化。所以最后我们必须得到这样的结论:“最重要的属性是多年的经验;然后是投资组合;然后是年龄等。”

可能存在不同职业彼此差异太大的情况 - 例如,我们可能无法将网页设计师与管理人员进行比较。在这种情况下,我们必须按组拆分它们并分别为每个组计算这些评级。但最终我们需要找到对每个群体都很常见的“共享”论点。

我正在考虑神经网络,因为它是他们可以处理的东西。但我对他们完全不熟悉,完全不知道该怎么做。

我非常感谢任何帮助 - 使用哪些仪器,算法甚至是伪代码样本等。

非常感谢。

1 个答案:

答案 0 :(得分:0)

这是(线性)回归的最基本的例子。您正在使用线性函数对数据建模,并需要估计参数。

请注意,这实际上是经典数学统计的一部分;不是数据挖掘,而是更老的。

有各种方法。鉴于可能存在异常值,我建议使用RANSAC。

至于重要性,这不是归结为“哪个最大,A B或C”?