计算多个DataFrame的值

时间:2018-05-11 14:09:22

标签: python pandas csv

我有多个包含相同类型数据的csv文件。我想计算所有csv文件中列中某个值的出现次数(它们太大而无法作为一个文件处理)。将结果放在一个系列中就像计算一个文件的出现一样好。我怎么能用熊猫来实现这个目标?

一个例子是:

file 1

gender
-------
man
woman
woman
woman


file 2

gender
-------
man
man
woman
woman


Result

 man 3
 woman 5

1 个答案:

答案 0 :(得分:0)

您可以使用dask.dataframe静默执行分块和聚合。

import dask.dataframe as dd

df = dd.read_csv('*.csv')  # use all csv files in directory

res = df['gender'].value_counts().compute()

这将返回一个系列àlapd.Series.value_counts

dask解决方案在块上使用pandas算法,即使单个文件无法加载到内存中也能正常工作。