我已经在记事本中打开了一个CSV文件,其中包含有关在城市区域发行的建筑许可证的数据,该区域有20列,超过33,000行。目前尚不清楚文件的排序方式。可能只是数据转储,但我不确定。因此,我想知道是否有最佳方法可以快速确定数据的排序方式。有办法吗?我目前是一名数据分析专业的学生,正在学习使用python,pandas,Jupyter Notebook等进行数据分析的方法
答案 0 :(得分:0)
假设您对数据框中多个字段的排序顺序(或唯一性)有一个假设。您可以使用MultiIndex进行测试。
fields = ['a', 'c', 'x'] # select fields of interest from data frame `df`
assert pd.MultiIndex.from_frame( df[fields] ).is_monotonic
assert pd.MultiIndex.from_frame( df[fields] ).is_unique