下面我有一个代码,其中读取csv文件并从文件中随机抽取700
。
我需要在多个文件上执行此操作,但是如果我遍历文件,则每个文件的样本(因为它是随机的)将是不同的,我希望它一旦随机生成就保持不变。 / p>
df = pd.read_csv(file.csv, delim_whitespace=True)
df_s = df.sample(n=700)
我的想法是获取行号,然后将其传递给下一个文件,但这似乎不是很优雅。
你知道这个问题有什么好的解决方案吗?
澄清
文件长度不同,但文件长度最小:750。
期望的结果示例
df1 = pd.read_csv(file1.csv, delim_whitespace=True)
df_s1 = df1.sample(n=700) # choose random sample
df2 = pd.read_csv(file2.csv, delim_whitespace=True)
df_s2 = df2.sample(n=700) # use same random sample as above