Question

这周我才开始使用熊猫。

我有一个大项目，我需要从主文件夹（多个子文件夹）中导入多种文件类型（擅长-有时有多张图纸，txt和csv-有时有多张图纸）。所有这些文件都具有相似的唯一标识符，但包含不同的信息。

我想导入，然后生成一个基于指定的唯一标识符链接所有文件的主数据框。因此，所有列和数据都基于指定的ID列表。

这是我所发现的：

import glob
import pandas as pd
import numpy as np

path = r'C: LINK TO MY FOLDER
excel_files = glob.glob('C:/Users/km/file1/**/*.txt', recursive=True)
csv_files = glob.glob('C:/Users/km/file1/**/*.csv, recursive=True)
txt_files = glob.glob('C:/Users/km/file1/**/*.excel, recursive=True)

现在基于唯一ID（这是我一直在努力解决的问题）构建数据框

master_database = pd.dataframe()
dfs = []
for filename in filenames:
    dfs.append(pd.read_xlsx(filenames))
df['unique_id'] = df.groupby(df.columns.tolist(), sort=False).ngroup() + 1

我希望所有数据列（来自所有来源）都基于1个唯一ID列进行组织。

然后我想使用创建的master_database进行分析。

对于整体上的excel，csvs和txt文件，我将必须这样做。

任何方向都非常感谢！

谢谢！

根据来自全局导入的唯一标识符组织数据框

0 个答案: