Question

我第一次玩大熊猫，我发现清理一些CSV文件的巨大潜力（数据类型，列名，根据文件中的其他值添加一些额外的列等）。

我在考虑只根据.csv文件中的列名选择某些列。就像有50列的文件一样，我可能会选择一些像这样的关键词：

usecols = ['Person ID', 'Interaction Date', 'Case ID', 'Overall Score',
           'Interaction Reason', 'Center Location']

其中一些值也在单独的文件中，因此为它们创建新标题并确保数据类型正确似乎是个好主意。我打算使用inplace命令。

df.rename(columns={'Interaction Date':'Interaction_Date'}, inplace = True)
df['Interaction_Date'] = pd.to_datetime(df['Interaction_Date'])

效率这么高吗？我会在几个大文件上使用这种方法并创建一个新的原始数据。然后我将这些文件（标准列名和数据类型）组合在一起，并将新的原始数据导入到sqlite数据库和我的Tableau Dashboards中。我也可以使用.merge将几个大文件绑在一起（Person_ID或Case_ID匹配）。

指定列名称并实际修改它们更好，或使用如下方法：

header = 0 and names = [x, y , z]