Pandas编码实践:构建返回DataFrame或Series的函数是否更好?
这是一个非常基本的问题(如果已经提出过问题,那就是问题)但是听到这方面的意见会很棒。我倾向于系列,因为它似乎是一个更基本的构建块(即df接收系列的索引),但是可以应用于Series的功能有一些限制。同样,基本的论点可以更进一步到numpy数组,在那里我开始失去开发速度。
答案 0 :(得分:0)
您应该考虑的最明显的约束是执行函数时的内存。有许多估计内存使用的技术(链接如下),包括编写数据帧做.csv文件和检查它们的dbytes()。但是,如果您要管理一个小型数据集,那么管理多个数据框不应该成为问题。
How to estimate how much memory a Pandas' DataFrame will need?
也就是说,您还可以构建多个函数并查看其核心流程时间统计信息:
What do 'real', 'user' and 'sys' mean in the output of time(1)?
在上述问题的基础上,如果没有明确性/特异性,我就无法提供更多详细信息。