我有多个包含相同类型数据的csv文件。我想计算所有csv文件中列中某个值的出现次数(它们太大而无法作为一个文件处理)。将结果放在一个系列中就像计算一个文件的出现一样好。我怎么能用熊猫来实现这个目标?
一个例子是:
file 1
gender
-------
man
woman
woman
woman
file 2
gender
-------
man
man
woman
woman
Result
man 3
woman 5
答案 0 :(得分:0)
您可以使用dask.dataframe
静默执行分块和聚合。
import dask.dataframe as dd
df = dd.read_csv('*.csv') # use all csv files in directory
res = df['gender'].value_counts().compute()
这将返回一个系列àlapd.Series.value_counts
。
dask
解决方案在块上使用pandas
算法,即使单个文件无法加载到内存中也能正常工作。