问题陈述:(多元线性回归)一家数字媒体公司(Netflix等)已经启动了一场演出。最初,该节目获得了良好的反响,但随后观众人数下降了。该公司想找出出什么问题了。
我想创建一个额外的列,即media ['days'],该列基本上记录了节目运行的总天数。假设演出的第一天是2017年3月1日,即2017-03-1。
我编写的代码如下。
media['Date'] = pd.to_datetime(media['Date'])
#deriving "days since the show started"
import datetime
d0 = date(2017, 2, 28)
d1 = media.Date #media is a dataframe variable
delta = d1 - d0
media['Day'] = delta
我得到的错误是:
---------------------------------------------------------------------------
TypeError Traceback (most recent call last)
in
3 d0 = date(2017, 2, 28)
4 d1 = media.Date #media is a dataframe variable
----> 5 delta = d1 - d0
6 media['Day'] = delta
c:\DEV\work\lib\site-packages\pandas\core\ops\__init__.py in wrapper(left, right)
990 # test_dt64_series_add_intlike, which the index dispatching handles
991 # specifically.
--> 992 result = dispatch_to_index_op(op, left, right, pd.DatetimeIndex)
993 return construct_result(
994 left, result, index=left.index, name=res_name, dtype=result.dtype
c:\DEV\work\lib\site-packages\pandas\core\ops\__init__.py in dispatch_to_index_op(op, left, right,
index_class)
628 left_idx = left_idx._shallow_copy(freq=None)
629 try:
--> 630 result = op(left_idx, right)
631 except NullFrequencyError:
632 # DatetimeIndex and TimedeltaIndex with freq == None raise ValueError
TypeError: unsupported operand type(s) for -: 'DatetimeIndex' and 'datetime.date'
我可以看到数据类型不匹配。
d0 的类型为:datetime.date&
d1 的类型为:pandas.core.series.Series
所以有人可以帮助我...如何将 d0 的值转换/解析为与 d1 的值完全相同。
答案 0 :(得分:3)
有必要转换datetime.date
以获得间隔。为此,您必须将d0
包装在pd.to_datetime
中。
即以下内容应该可以工作,以天为单位给出增量,如果只需要整数部分,则可以在日期时间序列上使用dt
访问器。
delta = d1 - pd.to_datetime(d0)
# or
delta = (d1 - pd.to_datetime(d0)).dt.days