标签: python pandas
我有一个相当大的数据集(约15GB压缩)。使用Pandas从这个数据集中随机抽样的最有效方法是什么?目前我有以下方式;
df = pd.read_csv (file, names = [] , sep = '|', nrows=10000000)
然而,这真的不符合我的需要。另外有一种方法可以在创建数据帧之前过滤数据吗?
感谢任何帮助:)