如何读取大量的csv文件并为每个文件计算boxplot统计信息?

时间:2019-04-01 21:35:05

标签: python pandas csv boxplot quantile

我有一个目录,其中包含约10个csv文件,所有大型数据集都有50M +行。我想创建一个for循环到

  • 一一阅读
  • 使用分位数功能为每个数据集计算箱线图统计量
  • 将这些统计信息连接到一个数据框

关于我该怎么做的任何想法?

这是我期望所得df的外观,该列由特征和概率分位数组成。

features  25%   50%   75%
Age       24     28    35
Height    161   175   194

1 个答案:

答案 0 :(得分:0)

浏览pandas read_csvpandas quantile函数。

例如,您可能会有类似以下的内容:

Sub Plus()

    With Worksheets("SomeSheet")
        If LCase(Trim(.Range("A1"))) = "sales associate" Then
            .Range("L10").Value = .Range("L10").Value + 1
        End If
   End With

End Sub

读取文件时,可能需要使用chunksize参数来处理内存管理。