标签: python pandas indexing dataframe
假设我有一个金融证券的数据框架,它通常有多个标识符:
我应该只选择一列作为索引吗?我应该将所有潜在标识符设置为索引吗?我应该将所有文本数据设置为索引,并将所有数字数据保留为列吗?什么是最佳做法?
答案 0 :(得分:0)
这更多是关于数据库设计而不是熊猫。
决策应该基于数据框(关系数据库中的表)及其列的业务含义。例如,如果“内部安全ID”用于识别其业务中的此类数据,则应将其设置为索引。
但是,如果您不确定,请坚持使用默认的整数索引。
答案 1 :(得分:0)
除非您需要将其中一列用作索引,否则我倾向于使用默认索引。如果这样做,我强烈建议您使用具有唯一值的列。如果存在重复项,这将使您非常头疼。