假设我们有1GB数据集(比如.csv)进行分析,我们无法快速运行,因为延迟太多而无法一次又一次地运行,为了使数据足够可扩展以进行分析,该怎么做。
答案 0 :(得分:2)
我经常遇到这个问题并通过制作数据集的数据框并通过从数据框输出创建新的数据集(比如.csv)获得一个简单的解决方案,而最重要的是创建新数据集数据集几乎是数据集实际大小的1/8。下面是一个如何工作的例子。
import pandas as pd
df=pd.DataFrame()
df=pd.read_csv('a1.csv')
现在,在对数据进行微小操作(如果需要)之后,您可以输出数据并获得非常小的.csv文件来分析数据。
df.to_csv('a2.csv')
如果您有其他方法可以使用Pandas处理更大的数据集,请更正我。
答案 1 :(得分:0)
另一种解决方案是在nrows
中使用read_csv
kwarg,例如:
df = pd.read_csv('a1.csv', nrows=100)
这将仅读取前100行。