我的任务可能与数据分析甚至神经网络有关。
我们有合作伙伴的数据来源,就业门户网站。源值是与特定员工相关的不同属性的数组:
- 他的\她的性别,
- 年龄,
- 多年经验,
- 投资组合(已完成项目的数量),
- 专业和专业(网页设计,网络编程,管理等),
- 许多其他(完全约20-30)
每位员工都有自己的薪水(每小时)费率。所以,从数学上讲,我们有一些功能
F(attr1,attr2,attr3,...)= A * attr1 + B * attr2 + C * attr3 + ...
系数未知。但是我们知道指定参数的函数结果(比方说,我们知道有20年经验的男性程序员和投资组合中的10件作品每小时40美元)。
所以我们必须找到这些系数(A,B,C ......),这样我们就可以预测任何员工的工资。这是最重要的目标。
另一个目标是找出哪些参数最重要 - 换句话说,哪些参数会导致函数结果发生重大变化。所以最后我们必须得到这样的结论:“最重要的属性是多年的经验;然后是投资组合;然后是年龄等。”
可能存在不同职业彼此差异太大的情况 - 例如,我们可能无法将网页设计师与管理人员进行比较。在这种情况下,我们必须按组拆分它们并分别为每个组计算这些评级。但最终我们需要找到对每个群体都很常见的“共享”论点。
我正在考虑神经网络,因为它是他们可以处理的东西。但我对他们完全不熟悉,完全不知道该怎么做。
我非常感谢任何帮助 - 使用哪些仪器,算法甚至是伪代码样本等。
非常感谢。
答案 0 :(得分:0)
这是(线性)回归的最基本的例子。您正在使用线性函数对数据建模,并需要估计参数。
请注意,这实际上是经典数学统计的一部分;不是数据挖掘,而是更老的。
有各种方法。鉴于可能存在异常值,我建议使用RANSAC。
至于重要性,这不是归结为“哪个最大,A B或C”?