在Python中用子文件夹的名称填充列?

时间:2018-07-30 13:09:10

标签: python pandas

为了理解类似的例子,我将这个问题的重点放在大熊猫上,因为它是一个更受欢迎的模块。

我想添加一列,并用目录中每个文件唯一地址的一部分填充它:

示例: 说每个子文件夹中有两个文件,分别为:4555432456 因此,它们的路径类似于:

C:\Users\user\Desktop\SHAPE\45554\INS\INS.shp
C:\Users\user\Desktop\SHAPE\45554\INB\INB.shp
C:\Users\user\Desktop\SHAPE\32456\INS\INS.shp
C:\Users\user\Desktop\SHAPE\32456\INB\INB.shp

所以我需要提取每行-3的位置并填充新列。

赞:

   new_col
     45554
     45554
     32456
     32456
     etc..

代码:

import pandas as pd
import os
import glob

    folder = path.Path(r"C:\Users\user\Desktop\SHAPE")
        files = []
            for fil in glob.iglob('**/Desktop/SHAPE/**/' ,recursive = True):
                try:
                    files.append(pd.read_table(fil))
                    fil['col'] = shpfile.split("\\")[-3]
                except ValueError as ex:
                    if not os.listdir(fil):
                       print(f'{fil} is empty')
            df = pd.concat(files, sort=True))
            df.to_csv(folder / 'all.csv')

如何实现?

2 个答案:

答案 0 :(得分:1)

您可以使用os模块执行此操作。使用此模块的好处是您的平台将使用正确的分隔符。

import os

x = r'C:\Users\user\Desktop\SHAPE\45554\INS\INS.shp'

def get_folder(fp, k=5):
    return os.path.split(fp)[0].split(os.sep)[k]

x_folder = get_folder(x)  # '45554'

然后只需通过pd.DataFrame.assign在循环中应用:

for fil in glob.iglob('**/Desktop/SHAPE/**/' ,recursive = True):
    files.append(pd.read_table(fil).assign(col=get_folder(fil)))

答案 1 :(得分:1)

使用str.split

例如:

import pandas as pd

df = pd.DataFrame({"Path": ['C:\\Users\\user\\Desktop\\SHAPE\\45554\\INS\\INS.shp', 'C:\\Users\\user\\Desktop\\SHAPE\\45554\\INB\\INB.shp', 'C:\\Users\\user\\Desktop\\SHAPE\\32456\\INS\\INS.shp', 'C:\\Users\\user\\Desktop\\SHAPE\\32456\\INB\\INB.shp']})
df['col'] = df["Path"].str.split(r"\\").str[-3]
print(df)

输出:

                                            Path    col
0  C:\Users\user\Desktop\SHAPE\45554\INS\INS.shp  45554
1  C:\Users\user\Desktop\SHAPE\45554\INB\INB.shp  45554
2  C:\Users\user\Desktop\SHAPE\32456\INS\INS.shp  32456
3  C:\Users\user\Desktop\SHAPE\32456\INB\INB.shp  32456