为了理解类似的例子,我将这个问题的重点放在大熊猫上,因为它是一个更受欢迎的模块。
我想添加一列,并用目录中每个文件唯一地址的一部分填充它:
示例:
说每个子文件夹中有两个文件,分别为:45554
和32456
因此,它们的路径类似于:
C:\Users\user\Desktop\SHAPE\45554\INS\INS.shp
C:\Users\user\Desktop\SHAPE\45554\INB\INB.shp
C:\Users\user\Desktop\SHAPE\32456\INS\INS.shp
C:\Users\user\Desktop\SHAPE\32456\INB\INB.shp
所以我需要提取每行-3
的位置并填充新列。
赞:
new_col
45554
45554
32456
32456
etc..
代码:
import pandas as pd
import os
import glob
folder = path.Path(r"C:\Users\user\Desktop\SHAPE")
files = []
for fil in glob.iglob('**/Desktop/SHAPE/**/' ,recursive = True):
try:
files.append(pd.read_table(fil))
fil['col'] = shpfile.split("\\")[-3]
except ValueError as ex:
if not os.listdir(fil):
print(f'{fil} is empty')
df = pd.concat(files, sort=True))
df.to_csv(folder / 'all.csv')
如何实现?
答案 0 :(得分:1)
您可以使用os
模块执行此操作。使用此模块的好处是您的平台将使用正确的分隔符。
import os
x = r'C:\Users\user\Desktop\SHAPE\45554\INS\INS.shp'
def get_folder(fp, k=5):
return os.path.split(fp)[0].split(os.sep)[k]
x_folder = get_folder(x) # '45554'
然后只需通过pd.DataFrame.assign
在循环中应用:
for fil in glob.iglob('**/Desktop/SHAPE/**/' ,recursive = True):
files.append(pd.read_table(fil).assign(col=get_folder(fil)))
答案 1 :(得分:1)
使用str.split
例如:
import pandas as pd
df = pd.DataFrame({"Path": ['C:\\Users\\user\\Desktop\\SHAPE\\45554\\INS\\INS.shp', 'C:\\Users\\user\\Desktop\\SHAPE\\45554\\INB\\INB.shp', 'C:\\Users\\user\\Desktop\\SHAPE\\32456\\INS\\INS.shp', 'C:\\Users\\user\\Desktop\\SHAPE\\32456\\INB\\INB.shp']})
df['col'] = df["Path"].str.split(r"\\").str[-3]
print(df)
输出:
Path col
0 C:\Users\user\Desktop\SHAPE\45554\INS\INS.shp 45554
1 C:\Users\user\Desktop\SHAPE\45554\INB\INB.shp 45554
2 C:\Users\user\Desktop\SHAPE\32456\INS\INS.shp 32456
3 C:\Users\user\Desktop\SHAPE\32456\INB\INB.shp 32456