这周我才开始使用熊猫。
我有一个大项目,我需要从主文件夹(多个子文件夹)中导入多种文件类型(擅长-有时有多张图纸,txt和csv-有时有多张图纸)。所有这些文件都具有相似的唯一标识符,但包含不同的信息。
我想导入,然后生成一个基于指定的唯一标识符链接所有文件的主数据框。因此,所有列和数据都基于指定的ID列表。
这是我所发现的:
import glob
import pandas as pd
import numpy as np
path = r'C: LINK TO MY FOLDER
excel_files = glob.glob('C:/Users/km/file1/**/*.txt', recursive=True)
csv_files = glob.glob('C:/Users/km/file1/**/*.csv, recursive=True)
txt_files = glob.glob('C:/Users/km/file1/**/*.excel, recursive=True)
现在基于唯一ID(这是我一直在努力解决的问题)构建数据框
master_database = pd.dataframe()
dfs = []
for filename in filenames:
dfs.append(pd.read_xlsx(filenames))
df['unique_id'] = df.groupby(df.columns.tolist(), sort=False).ngroup() + 1
我希望所有数据列(来自所有来源)都基于1个唯一ID列进行组织。
然后我想使用创建的master_database进行分析。
对于整体上的excel,csvs和txt文件,我将必须这样做。
任何方向都非常感谢!
谢谢!