Question

您好我是处理大数据的新手，并且在python中很舒服我有150个csv，每个大小70MB，我必须在一个来源中集成，以删除基本统计数据，如唯一计数，唯一名称等。

任何人都可以建议我该怎么办？我遇到了一个包裹＆＃39; pyelastic search＆＃39;在python中，我可以在诱人的树冠中使用它。

需要建议！

Answer 1

如果您在AWS中，则有一个选项

Step1 - 将数据移至S3（AWS本机文件存储）第2步 - 为redshift中的每个数据结构创建表步骤3 - 运行COPY命令将数据从S3移动到Redshift（AWS native DW）

    COPY command loads data in bulk, detects file name pattern

Answer 2

尝试使用pandas包。

阅读单个csv将是：

import pandas as pd
df = pd.read_csv('filelocation.csv')

如果是多个文件，只需concat个。假设ls是文件位置列表，那么：

df = pd.concat([pd.read_csv(f) for f in ls])

然后将它们写为单个文件，执行：

df.to_csv('output.csv')

当然所有这些对于内存操作都有效（70x150 = ~10.5 GB RAM）。如果这不可行 - 请考虑构建增量流程或使用dask数据帧。