根据来自全局导入的唯一标识符组织数据框

时间:2019-01-14 23:13:17

标签: python pandas jupyter-notebook

这周我才开始使用熊猫。

我有一个大项目,我需要从主文件夹(多个子文件夹)中导入多种文件类型(擅长-有时有多张图纸,txt和csv-有时有多张图纸)。所有这些文件都具有相似的唯一标识符,但包含不同的信息。

我想导入,然后生成一个基于指定的唯一标识符链接所有文件的主数据框。因此,所有列和数据都基于指定的ID列表。

这是我所发现的:

import glob
import pandas as pd
import numpy as np

path = r'C: LINK TO MY FOLDER
excel_files = glob.glob('C:/Users/km/file1/**/*.txt', recursive=True)
csv_files = glob.glob('C:/Users/km/file1/**/*.csv, recursive=True)
txt_files = glob.glob('C:/Users/km/file1/**/*.excel, recursive=True)

现在基于唯一ID(这是我一直在努力解决的问题)构建数据框

master_database = pd.dataframe()
dfs = []
for filename in filenames:
    dfs.append(pd.read_xlsx(filenames))
df['unique_id'] = df.groupby(df.columns.tolist(), sort=False).ngroup() + 1

我希望所有数据列(来自所有来源)都基于1个唯一ID列进行组织。

然后我想使用创建的master_database进行分析。

对于整体上的excel,csvs和txt文件,我将必须这样做。

任何方向都非常感谢!

谢谢!

0 个答案:

没有答案