Question

我知道如何使用pandas来读取CSV扩展名的文件。读取大文件时出现内存不足错误。该文件是380万行和640万列文件。在大量人口的文件中主要有基因组数据。

我如何克服这个问题，什么是标准做法，以及如何为此选择合适的工具。我可以使用pandas处理这么大的文件，还是有另一种工具？

Answer 1

您可以使用Apache Spark分发csv文件https://github.com/databricks/spark-csv的内存中处理。查看分布式基因组数据处理的ADAM's方法。

Answer 2

您可以使用python csv模块

with open(filename, "r") as csvfile:
    datareader = csv.reader(csvfile)
    for i in datareader:
        #process each line
        #You now only hold one row in memory, instead of your thousands of lines

有效地读取巨大的csv文件？

2 个答案: