我试图分散以下数据框:
mydf = pd.DataFrame({'x':[1,2,3,4,5,6,7,8,9],
'y':[9,8,7,6,5,4,3,2,1],
'z':np.random.randint(0,9, 9)},
index=["12:00", "1:00", "2:00", "3:00", "4:00",
"5:00", "6:00", "7:00", "8:00"])
x y z
12:00 1 9 1
1:00 2 8 1
2:00 3 7 7
3:00 4 6 7
4:00 5 5 4
5:00 6 4 2
6:00 7 3 2
7:00 8 2 8
8:00 9 1 8
我希望看到时间" 12:00,1:00,..."作为y轴上的x轴和x,y,z
列。
当我尝试通过mydf.plot(kind="scatter")
使用pandas进行绘图时,我收到错误ValueError: scatter requires and x and y column
。我是否必须将我的数据框分解为适当的参数?我真正想做的是用seaborn绘制这个散点图。
答案 0 :(得分:6)
刚刚开始
mydf.plot(style=".")
对我来说很好:
答案 1 :(得分:0)
Seaborn实际上是围绕pandas.DataFrame
建立的。但是,您的data frame needs to be "tidy":
由于您想在同一图上绘制x,y和z,因此看起来它们实际上是不同的观察。因此,您实际上有三个变量:时间,值和所用字母。
"tidy" standard comes from Hadly Wickham, who implemented it in the tidyr package。
首先,我将索引转换为Datetime:
mydf.index = pd.DatetimeIndex(mydf.index)
然后我们将数据转换为整齐的数据:
pivoted = mydf.unstack().reset_index()
并重命名列
pivoted = pivoted.rename(columns={"level_0": "letter", "level_1": "time", 0: "value"})
现在,这就是我们的数据:
letter time value
0 x 2019-03-13 12:00:00 1
1 x 2019-03-13 01:00:00 2
2 x 2019-03-13 02:00:00 3
3 x 2019-03-13 03:00:00 4
4 x 2019-03-13 04:00:00 5
不幸的是,seaborn不能很好地与DateTimes配合使用,因此您可以将小时提取为整数:
pivoted["hour"] = pivoted["time"].dt.hour
使用这种形式的数据框,seaborn可以轻松地获取数据:
import seaborn as sns
sns.set()
sns.scatterplot(data=pivoted, x="hour", y="value", hue="letter")
输出: