Question

我有一个目录，其中包含约10个csv文件，所有大型数据集都有50M +行。我想创建一个for循环到

一一阅读
使用分位数功能为每个数据集计算箱线图统计量
将这些统计信息连接到一个数据框

关于我该怎么做的任何想法？

这是我期望所得df的外观，该列由特征和概率分位数组成。

features  25%   50%   75%
Age       24     28    35
Height    161   175   194

Answer 1

浏览pandas read_csv和pandas quantile函数。

例如，您可能会有类似以下的内容：

Sub Plus()

    With Worksheets("SomeSheet")
        If LCase(Trim(.Range("A1"))) = "sales associate" Then
            .Range("L10").Value = .Range("L10").Value + 1
        End If
   End With

End Sub

读取文件时，可能需要使用chunksize参数来处理内存管理。

如何读取大量的csv文件并为每个文件计算boxplot统计信息？

1 个答案: