Question

在文件夹中包含200个左右的文件。每个列都有相同数量的列，但命名可能会有一些变化。例如，我可以拥有全局ID或全局ID或全局ID。有没有办法控制pandas列名称中的大小写，以便它与它等于什么无关紧要？目前它将通过200个中的前15个左右的文件，并且会因为找不到全局ID而出错。

警告我是一个初学者并且还在学习。

import pandas as pd
import glob

with open('test99.txt' , 'a') as out:
    list_of_files = glob.glob('M:\AD HOC Docs\Client\Blinded\*')
    for file_name in list_of_files:
        df = pd.read_table(file_name, low_memory=False)
        df['Client'] = file_name.split("_")[2].strip()
        Final = df[['Client','ClientID','Global ID','Internal ID','campaign type','engagement type', 'file_name']]
        Final.to_csv(out,index=False)

Answer 1

使用header=None, names=[list of column names you want to use]作为read_table的附加参数来忽略标题行并获得一致的名称。

Python - Pandas组合多个文件的各个部分

1 个答案: