我已经使用了我的系列并将其强制转换为dtype = datetime64[ns]
的日期时间列(尽管只需要一天的分辨率......不确定如何更改)。
import pandas as pd
df = pd.read_csv('somefile.csv')
column = df['date']
column = pd.to_datetime(column, coerce=True)
但是密谋不起作用:
ipdb> column.plot(kind='hist')
*** TypeError: ufunc add cannot use operands with types dtype('<M8[ns]') and dtype('float64')
我想绘制直方图,只是按周,月或年显示日期计数。
肯定有办法在pandas
?
答案 0 :(得分:120)
鉴于此df:
date
0 2001-08-10
1 2002-08-31
2 2003-08-29
3 2006-06-21
4 2002-03-27
5 2003-07-14
6 2004-06-15
7 2003-08-14
8 2003-07-29
并且,如果情况不是这样的话:
df["date"] = df["date"].astype("datetime64")
按月显示日期计数:
df.groupby(df["date"].dt.month).count().plot(kind="bar")
.dt
允许您访问日期时间属性。
哪个会给你:
您可以逐年,每天等替换。
如果您想区分年份和月份,请执行以下操作:
df.groupby([df["date"].dt.year, df["date"].dt.month]).count().plot(kind="bar")
给出了:
这是你想要的吗?这是清楚的吗?
希望这有帮助!
答案 1 :(得分:8)
我认为重新取样可能就是你要找的东西。在您的情况下,请执行:
df.set_index('date', inplace=True)
# for '1M' for 1 month; '1W' for 1 week; check documentation on offset alias
df.resample('1M', how='count')
它只是在进行计数而不是情节,所以你必须制作自己的情节。
有关resample文档的更多详细信息,请参阅此帖子 pandas resample documentation
我遇到了类似的问题。希望这会有所帮助。
答案 2 :(得分:5)
#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""Create random datetime object."""
# core modules
from datetime import datetime
import random
# 3rd party modules
import pandas as pd
import matplotlib.pyplot as plt
def visualize(df, column_name='start_date', color='#494949', title=''):
"""
Visualize a dataframe with a date column.
Parameters
----------
df : Pandas dataframe
column_name : str
Column to visualize
color : str
title : str
"""
plt.figure(figsize=(20, 10))
ax = (df[column_name].groupby(df[column_name].dt.hour)
.count()).plot(kind="bar", color=color)
ax.set_facecolor('#eeeeee')
ax.set_xlabel("hour of the day")
ax.set_ylabel("count")
ax.set_title(title)
plt.show()
def create_random_datetime(from_date, to_date, rand_type='uniform'):
"""
Create random date within timeframe.
Parameters
----------
from_date : datetime object
to_date : datetime object
rand_type : {'uniform'}
Examples
--------
>>> random.seed(28041990)
>>> create_random_datetime(datetime(1990, 4, 28), datetime(2000, 12, 31))
datetime.datetime(1998, 12, 13, 23, 38, 0, 121628)
>>> create_random_datetime(datetime(1990, 4, 28), datetime(2000, 12, 31))
datetime.datetime(2000, 3, 19, 19, 24, 31, 193940)
"""
delta = to_date - from_date
if rand_type == 'uniform':
rand = random.random()
else:
raise NotImplementedError('Unknown random mode \'{}\''
.format(rand_type))
return from_date + rand * delta
def create_df(n=1000):
"""Create a Pandas dataframe with datetime objects."""
from_date = datetime(1990, 4, 28)
to_date = datetime(2000, 12, 31)
sales = [create_random_datetime(from_date, to_date) for _ in range(n)]
df = pd.DataFrame({'start_date': sales})
return df
if __name__ == '__main__':
import doctest
doctest.testmod()
df = create_df()
visualize(df)
答案 3 :(得分:4)
这是当您只想拥有期望的直方图时的解决方案。这不使用groupby,而是将日期时间值转换为整数并更改绘图上的标签。可以进行一些改进,以将刻度标签移动到均匀位置。同样,通过这种方法,内核密度估计图(以及任何其他图)也是可能的。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
df = pd.DataFrame({"datetime": pd.to_datetime(np.random.randint(1582800000000000000, 1583500000000000000, 100, dtype=np.int64))})
fig, ax = plt.subplots()
df["datetime"].astype(np.int64).plot.hist(ax=ax)
labels = ax.get_xticks().tolist()
labels = pd.to_datetime(labels)
ax.set_xticklabels(labels, rotation=90)
plt.show()
答案 4 :(得分:1)
我认为为了解决这个问题,您可以使用此代码,它将日期类型转换为int类型:
df['date'] = df['date'].astype(int)
df['date'] = pd.to_datetime(df['date'], unit='s')
只获取日期,您可以添加以下代码:
pd.DatetimeIndex(df.date).normalize()
df['date'] = pd.DatetimeIndex(df.date).normalize()
答案 5 :(得分:1)
我也遇到了麻烦。我想,既然你正在处理日期,你想保留时间顺序(就像我做的那样。)
然后解决方法是
import matplotlib.pyplot as plt
counts = df['date'].value_counts(sort=False)
plt.bar(counts.index,counts)
plt.show()
如果有人知道更好的方法,请说出来。
编辑: 对于上面的牛仔裤,这是一个数据样本[我从完整数据集中随机抽样,因此是平凡的直方图数据。]
print dates
type(dates),type(dates[0])
dates.hist()
plt.show()
输出:
0 2001-07-10
1 2002-05-31
2 2003-08-29
3 2006-06-21
4 2002-03-27
5 2003-07-14
6 2004-06-15
7 2002-01-17
Name: Date, dtype: object
<class 'pandas.core.series.Series'> <type 'datetime.date'>
---------------------------------------------------------------------------
TypeError Traceback (most recent call last)
<ipython-input-38-f39e334eece0> in <module>()
2 print dates
3 print type(dates),type(dates[0])
----> 4 dates.hist()
5 plt.show()
/anaconda/lib/python2.7/site-packages/pandas/tools/plotting.pyc in hist_series(self, by, ax, grid, xlabelsize, xrot, ylabelsize, yrot, figsize, bins, **kwds)
2570 values = self.dropna().values
2571
-> 2572 ax.hist(values, bins=bins, **kwds)
2573 ax.grid(grid)
2574 axes = np.array([ax])
/anaconda/lib/python2.7/site-packages/matplotlib/axes/_axes.pyc in hist(self, x, bins, range, normed, weights, cumulative, bottom, histtype, align, orientation, rwidth, log, color, label, stacked, **kwargs)
5620 for xi in x:
5621 if len(xi) > 0:
-> 5622 xmin = min(xmin, xi.min())
5623 xmax = max(xmax, xi.max())
5624 bin_range = (xmin, xmax)
TypeError: can't compare datetime.date to float
答案 6 :(得分:1)
我能够通过(1)使用matplotlib绘图而不是直接使用数据帧和(2)使用values
属性来解决这个问题。见例:
import matplotlib.pyplot as plt
ax = plt.gca()
ax.hist(column.values)
如果我不使用values
,这不起作用,但我不知道它为什么会起作用。
答案 7 :(得分:1)
所有这些答案似乎都过于复杂,至少对于“现代”熊猫来说,这是两行。
df.set_index('date', inplace=True)
df.resample('M').size().plot.bar()
答案 8 :(得分:0)
我被困了很长时间试图用“bar”绘制时间序列。当试图用不同的索引绘制两个时间序列时,这真的很奇怪,例如每日和每月数据。然后我重新阅读了文档,matplotlib 文档确实明确指出 bar 用于分类数据。 要使用的绘图函数是 step。