我知道如何使用pandas来读取CSV扩展名的文件。读取大文件时出现内存不足错误。该文件是380万行和640万列文件。在大量人口的文件中主要有基因组数据。
我如何克服这个问题,什么是标准做法,以及如何为此选择合适的工具。我可以使用pandas处理这么大的文件,还是有另一种工具?
答案 0 :(得分:1)
您可以使用Apache Spark分发csv文件https://github.com/databricks/spark-csv的内存中处理。查看分布式基因组数据处理的ADAM's方法。
答案 1 :(得分:0)
您可以使用python csv模块
with open(filename, "r") as csvfile:
datareader = csv.reader(csvfile)
for i in datareader:
#process each line
#You now only hold one row in memory, instead of your thousands of lines