将数据帧写入CSV文件时,如何避免生成crc文件和SUCCESS文件?

时间:2019-10-08 15:09:06

标签: pyspark

我正在尝试使用以下代码df.repartition(1).write.csv('path',sep = ',')将数据帧保存到CSV文件中,然后在csv文件旁边生成其他文件,如以下代码段

enter image description here

如何避免将df保存到CSV文件而不生成那些CSC文件?万一我不可能让大熊猫从所有其他文件中读取唯一的CSV文件。考虑到存在一个文件格式为csv.crc

1 个答案:

答案 0 :(得分:0)

对于仅读取 csv 文件的 Pandas,您可以执行以下操作:

import pandas as pd
import os
from os import listdir

#you can change the suffix, csv will be the default
def find_csv_filenames( path_to_dir, suffix=".csv" ):
    filenames = listdir(path_to_dir)
    return [ filename for filename in filenames if filename.endswith( suffix ) ]

your_dir = '/your_path_here/complete_route'

csv_files = ind_csv_filenames(your_dir)

for filename in csv_files: 
  print(pd.read_csv(your_dir+"/"+filename))

如果要读取同一数据框中的所有文件:

df = pd.DataFrame()
for filename in csv_files: 
  df = df.append(pd.read_csv(your_dir+"/"+filename), ignore_index=True)