Question

我有多个包含相同类型数据的csv文件。我想计算所有csv文件中列中某个值的出现次数（它们太大而无法作为一个文件处理）。将结果放在一个系列中就像计算一个文件的出现一样好。我怎么能用熊猫来实现这个目标？

一个例子是：

file 1

gender
-------
man
woman
woman
woman


file 2

gender
-------
man
man
woman
woman


Result

 man 3
 woman 5

Answer 1

您可以使用dask.dataframe静默执行分块和聚合。

import dask.dataframe as dd

df = dd.read_csv('*.csv')  # use all csv files in directory

res = df['gender'].value_counts().compute()

这将返回一个系列àlapd.Series.value_counts。

dask解决方案在块上使用pandas算法，即使单个文件无法加载到内存中也能正常工作。