您好,尊敬的Stackoverflow用户, 我刚开始使用Python,很想向您学习!
在石油和天然气行业中,有2组数据用于相同变量。 第一组数据是在表面上立即测量的,与实际值略有不同。 第二组是滞后的(最多滞后20分钟),但因为它是在地下深处测量的,所以是准确的。
如何使用第一组数据提前预测第二组数据?例如,我想在前200个数据点上训练模型,然后使用后200个数据点来预测滞后数据。但是,以下代码为我提供了非常错误的值。可能是什么原因?
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
sf=pd.read_csv("/Users/straminal/Desktop/DR/SF.csv", names=.['a','b','c','d','e','f','g','h'])
dh=pd.read_csv("/Users/straminal/Desktop/DR/DH.csv", names=['a','b','c','d','e'])
Surface1=sf.iloc[0:200,1]
Downhole1=dh.iloc[0:200,1]
Surface2=sf.iloc[200:400,1]
X1=[Surface1]
Y1=[Downhole1]
X2=[Surface2]
clf = RandomForestRegressor(n_estimators=100)
clf.fit(X1, Y1)
Downhole2 = clf.predict(X2)
print (Downhole2)
谢谢。
答案 0 :(得分:0)
我认为您不能总是以100%的准确性进行预测。总会有残差,但是如果您使用好的模型,则残差的长期总和应为零。
我不确定RandomForest是完成这项工作的最佳方法。
查看卡尔曼滤波器。
https://scipy-cookbook.readthedocs.io/items/KalmanFiltering.html
图表: Kalman filtering
图中的噪声测量是表面,实际测量是井下。
此外,此链接提供了很好的解释。
https://github.com/rlabbe/Kalman-and-Bayesian-Filters-in-Python
来自Wiki:
卡尔曼过滤器在实施美国海军核弹道导弹潜艇的导航系统以及巡航导弹的制导和导航系统(例如美国海军的战斧导弹和美国空军的空中发射)中至关重要。巡航导弹。它们还用于可重复使用的运载火箭的制导和导航系统以及停靠在国际空间站的航天器的姿态控制和导航系统。[7]