我有一个数据框,其中有两列(年龄,日期),分别指示一个人的年龄和当前日期。我想根据这些数据估算出出生日期。我想拟合一个线性模型并找到与的截距,但是开箱即用。熊猫不再支持ols()
功能。
import pandas as pd
import seaborn as sns
from pandas import Timestamp
age = [30, 31, 31, 32, 32, 32, 32, 32, 32, 32, 33, 33, 33, 34, 34]
date = [Timestamp('2001-02-10 00:01:00'),
Timestamp('2001-11-12 00:01:00'),
Timestamp('2002-02-27 00:01:00'),
Timestamp('2002-07-05 00:01:00'),
Timestamp('2002-07-20 00:01:00'),
Timestamp('2002-08-15 00:01:00'),
Timestamp('2002-09-08 00:01:00'),
Timestamp('2002-10-15 00:01:00'),
Timestamp('2002-12-21 00:01:00'),
Timestamp('2003-04-04 00:01:00'),
Timestamp('2003-07-29 00:01:00'),
Timestamp('2003-08-11 00:01:00'),
Timestamp('2004-02-28 00:01:00'),
Timestamp('2005-01-11 00:01:00'),
Timestamp('2005-01-12 00:01:00')]
df = pd.DataFrame({'age': age, 'date': date})
sns.regplot(df.age, df.date)
引发错误:
TypeError:此dtype不允许进行归约运算“平均值”
将数据转换为可以拟合的数据并将其转换回日期并估计置信区间的最佳方法是什么?有没有可以处理pandas.Timestamps的软件包?例如。 scikit学习?
答案 0 :(得分:3)
使用pd.to_numeric
转换为unix时间,在这种情况下为自1970-01-01以来的纳秒数。
import pandas as pd
df['date'] = pd.to_numeric(df.date)
sns.regplot(df.age, df.date)
然后您可以使用pd.to_datetime()
轻松地将其转换回日期。
示例:这是一个简单的线性拟合
import numpy as np
df['date'] = pd.to_numeric(df.date)
fit = np.polyfit(df.age, df.date, 1)
# Here's the predicted Birthday in unix time
np.polyval(fit, 0)
#4.966460634146548e+16
# Here's the same result transformed to a date.
pd.to_datetime(np.polyval(fit,0))
#Timestamp('1971-07-29 19:43:26.341465480')