我第一次玩大熊猫,我发现清理一些CSV文件的巨大潜力(数据类型,列名,根据文件中的其他值添加一些额外的列等)。
我在考虑只根据.csv文件中的列名选择某些列。就像有50列的文件一样,我可能会选择一些像这样的关键词:
usecols = ['Person ID', 'Interaction Date', 'Case ID', 'Overall Score',
'Interaction Reason', 'Center Location']
其中一些值也在单独的文件中,因此为它们创建新标题并确保数据类型正确似乎是个好主意。我打算使用inplace命令。
df.rename(columns={'Interaction Date':'Interaction_Date'}, inplace = True)
df['Interaction_Date'] = pd.to_datetime(df['Interaction_Date'])
效率这么高吗?我会在几个大文件上使用这种方法并创建一个新的原始数据。然后我将这些文件(标准列名和数据类型)组合在一起,并将新的原始数据导入到sqlite数据库和我的Tableau Dashboards中。我也可以使用.merge将几个大文件绑在一起(Person_ID或Case_ID匹配)。
指定列名称并实际修改它们更好,或使用如下方法:
header = 0 and names = [x, y , z]