希望将机器学习算法应用于复杂数据的分析

时间:2017-05-09 10:39:29

标签: python algorithm machine-learning statistics

我目前正在研究我的一项工作任务,我正在考虑某些想法和新方法以解决它,所以我真的希望我能得到该领域专家的帮助:-)。

我目前正在对历史数据的复杂数据集进行分析,该数据集表示构建离岸平台的成本与当前字段的已发现资源之间的关系(或者可以使用年度生产的平均值)。每个数据点都有一组参数,如地理起源,主要碳氢化合物的类型,水深,到最近的基础设施的距离,平台的类型等(总共10个参数)。 我们的想法是构建一条趋势线,可以用来预测未来油田的成本,因为后者的生产/资源总是被报告。

总体趋势是,如果资源/产量增加,成本会增加。因此,在模型中可以很容易地观察到一些线性,但是,在这种情况下,简单的线性回归过于虚拟,因为我们在数据集中给出了很多不同的信息。

我获得了数学方法和偏微分方程专业的应用数学硕士学位,但我现在所面临的是一个非常常见的统计行业相关问题。我还假设这个任务是一个完美的候选者,通过应用机器学习算法来解决,因为将连续添加越来越多的数据点,曲线/趋势线可用于进一步预测未来领域的成本,知道他们的生产/资源和性质(参数)。但是,我对这个领域是全新的,所以您的任何评论,信息等都将受到高度赞赏: - )

提前致谢

1 个答案:

答案 0 :(得分:0)

这个问题是恕我直言,非常广泛,并不是非常具体,所以你可能会得到广泛的答案。

我相信你有一个很好的机器学习实现用例。干得好。

我建议你去做一些"操作方法"资源非常务实和务实。我非常喜欢this ML course,它可以指出你从哪里开始以及如何继续实践,例如将数据划分为学习,测试和交叉验证集,规范化,正则化,派生特征,......等

一般情况下 - 您已经发现您的问题看起来像是一个有多种功能的受监控机器。线性回归可能无法完全发挥作用(正如您所指出的),您可以尝试构建更复杂的模型,但不要过于复杂。我从具有正则化参数的多项式模型开始,并且看看某些派生特征是否更合适。

但只有你能看到你的数据是什么样子以及可以开始模特的人:)祝你好运