我想拍一张如下照片:
我想使用seaborn使图形看起来很漂亮,并且让我自己更容易使用facetgrids(我有十个不同的数据集,我想在同一个图表中显示。)
我在seaborn中找到的最接近的是tsplots。
我的数据看起来如下(500万行):
files.Length-1
Bin_nb Sample Type Count
0 131 Exp1 Input 1
1 79 Exp2 Polymerase_II 1
2 100 Exp1 Input 2
3 173 Exp2 Input 3
4 40 Exp1 Input 1
范围从0到200,我假装它们代表时间。
索引中没有重复项:
Bin_nb
我仍然收到错误len(df.index.drop_duplicates()) # 5e6
当我尝试命令时
ValueError: Index contains duplicate entries, cannot reshape
版本信息:
sns.tsplot(data=df, time="Bin_nb", unit="Sample", value="Count", condition="Type")
答案 0 :(得分:2)
重复的索引大概是Bin_nb Sample Type
元组,其中有几个,每个都有自己的Count
值。分组和总结这些固定它!
rowdicts = []
for l, d in df.groupby("Bin_nb Sample Type".split()):
d = {"Bin_nb": l[0], "Sample": l[1], "Type": l[2]}
rowdicts.append(d)
df2 = pd.DataFrame.from_dict(rowdicts)
现在数据如下:
Bin_nb Count Sample Type
0 0 11118 Exp1 Input
1 0 10774 Exp1 Polymerase_II
2 0 8909 Exp2 Input
3 0 13704 Exp2 Polymerase_II
4 1 10388 Exp1 Input
5 1 11108 Exp1 Polymerase_II
和voilà密谋作品!
sns.tsplot(data=df2, time="Bin_nb", unit="Sample", value="Count", condition="Type")