我正在尝试从数据框中获取包含最前 n 个条目的Seaborn条形图,并按其中一列进行排序。
在Pandas中,我通常会使用以下方式:
df = df.sort_values('ColumnFoo', ascending=False)
sns.barplot(data=df[:10], x='ColumnFoo', y='ColumnBar')
但是,尝试Dask时,(显然很明显)没有选择排序数据帧的方法,因为数据帧在很大程度上是延迟的对象,对它们进行排序将首先消除使用Dask的许多好处。
是从数据框中获取有序条目,还是让Seaborn从数据框的列中选择前 n 个顶级值?
答案 0 :(得分:0)
如果要将数据移动到Seaborn,则几乎可以肯定它适合内存。我建议只转换为Pandas数据框,然后在此处进行排序。
通常,一旦您采用了小数据机制,就没有理由对熊猫使用Dask了。熊猫更加成熟,体验更加顺畅。 Dask Dataframe开发人员建议在可行时使用Pandas。