我正在尝试使用以下代码df.repartition(1).write.csv('path',sep = ',')
将数据帧保存到CSV文件中,然后在csv文件旁边生成其他文件,如以下代码段
如何避免将df保存到CSV文件而不生成那些CSC文件?万一我不可能让大熊猫从所有其他文件中读取唯一的CSV文件。考虑到存在一个文件格式为csv.crc
答案 0 :(得分:0)
对于仅读取 csv 文件的 Pandas,您可以执行以下操作:
import pandas as pd
import os
from os import listdir
#you can change the suffix, csv will be the default
def find_csv_filenames( path_to_dir, suffix=".csv" ):
filenames = listdir(path_to_dir)
return [ filename for filename in filenames if filename.endswith( suffix ) ]
your_dir = '/your_path_here/complete_route'
csv_files = ind_csv_filenames(your_dir)
for filename in csv_files:
print(pd.read_csv(your_dir+"/"+filename))
如果要读取同一数据框中的所有文件:
df = pd.DataFrame()
for filename in csv_files:
df = df.append(pd.read_csv(your_dir+"/"+filename), ignore_index=True)