我在给定的文件夹及其子文件夹中有多个Excel表单。全部具有相同的文件名字符串,后缀为日期和时间。如何将它们全部合并到一个文件中,同时使工作表名称和标题成为附加数据框的索引。通常,每个子文件夹中有200个小文件,每个文件约100个文件,子文件夹中则有20 MB的文件,每个文件约10 MB。
答案 0 :(得分:1)
This may help you to merge all the xlsx file in current directory.
import glob
import os
import pandas as pd
output = pd.DataFrame()
for file in glob.glob(os.getcwd()+"\\*.xlsx"):
cn = pd.read_excel(file)
output = output.append(cn)
output.to_csv(os.getcwd()+"\\outPut.csv", index = False, na_rep = "NA", header=None)
print("Completed +::" )
Note : you need xlrd-1.1.0 library along with pandas to read xlsx files.
答案 1 :(得分:0)
我尝试使用静态文件名定义进行操作,如果它通过从动态文件列表选择中的列标题进行安慰(以.xls *(xls / xlsx / xlsb / xlsm)和.csv和.txt开头的形式进行安慰,那会很好
将熊猫作为pd导入
db = pd.read_excel(“ / data / Sites / Cluster1 0815.xlsx”)
db1 = pd.read_excel(“ / data / Sites / Cluster2 0815.xlsx”)
db2 = read_excel(“ / data / Sites / Cluster3 0815.xlsx”)
sdb = db.append(db1)
sdb = sdb.append(db2)
sdb.to_csv(“ / data / Sites / sites db.csv”,索引= False,na_rep =“ NA”,标头=无)
答案 2 :(得分:0)
答案 3 :(得分:0)