熊猫:不一致的连接

时间:2018-05-23 17:42:30

标签: python pandas

我有两个pandas DataFrames,日期时间戳作为名为“datetime”的索引,有些浮动作为名为“metric1”或“metric2”的列。当我尝试连接它们时,我收到以下错误:

<div class="items">
  <div class="item">One</div>
  <div class="item">Two</div>
  <div class="item">Three</div>
  <div class="item">Four</div>
  <div class="item">Five</div>
</div>

阅读了好几个小时后,我找不到解决方案来解决我的问题(例如What does `ValueError: cannot reindex from a duplicate axis` mean? "ValueError: cannot reindex from a duplicate axis")。

然后我花了很长时间试图重新创建问题,但不能发布我的具体数据,但我的数据是两个大的帖子。

最后,似乎数据帧的某些部分不兼容,但其他部分都很好。在比较了许多不同的索引片后,我终于找到了不兼容的集合。有人可以帮我理解为什么我不能连接这些。

基本上我希望所有可能的时间戳都在索引中,并且有一个“metric1”和“metric2”的列。如果给定时间戳的列没有数据,那么我们只有NaN或其他东西。这通常与ValueError: cannot reindex from a duplicate axis 一起正常工作,但在这种情况下不起作用。要重新创建,请使用:

CSV文件:

test1.csv

pd.concat

test2.csv

timestamp,metric1
2018-03-21 15:46:36,3.5555559999999997
2018-03-21 15:47:36,5.345001
2018-03-21 15:48:36,5.719998

test4.csv

timestamp,metric2
2018-03-28 05:49:59,3.28
2018-03-28 05:50:59,3.45
2018-03-28 05:51:59,3.258332
2018-03-28 05:52:59,3.068333
2018-03-28 05:53:59,2.9733330000000002
2018-03-28 05:54:59,3.0650009999999996
2018-03-28 05:55:59,3.109999
2018-03-28 05:56:59,3.3683330000000002
2018-03-28 05:57:59,3.1516669999999998
2018-03-28 05:58:59,3.051666
2018-03-28 05:59:59,3.3083339999999994
2018-03-28 06:01:01,3.328333
2018-03-28 06:01:01,3.1
2018-03-28 06:02:00,3.305
2018-03-28 06:03:00,3.29
2018-03-28 06:04:00,3.2183330000000003
2018-03-28 06:05:00,3.176666
2018-03-28 06:06:00,3.353333
2018-03-28 06:07:00,3.3233330000000003
2018-03-28 06:08:00,3.393332
2018-03-28 06:09:00,3.053334
2018-03-28 06:10:00,3.268333
2018-03-28 06:11:00,3.239999
2018-03-28 06:12:00,3.223332
2018-03-28 06:13:00,3.119999

注意:test2.csv和test4.csv来自完全相同的数据集。

现在让我们加载CSV文件:

timestamp,metric2
2018-03-21 00:00:00,10.665
2018-03-21 00:01:00,10.285
2018-03-21 00:02:00,10.12834

现在让我们测试它们的连接:

无错误测试

tt1 = pd.read_csv('test1.csv', index_col=0)
tt1.index = pd.to_datetime(tt1.index)
tt2 = pd.read_csv('test2.csv', index_col=0)
tt2.index = pd.to_datetime(tt2.index)
tt4 = pd.read_csv('test4.csv', index_col=0)
tt4.index = pd.to_datetime(tt4.index)

测试错误

tt3 = pd.concat([tt1, tt4], axis = 1)

3 个答案:

答案 0 :(得分:2)

tt2中有重复的索引。这会导致错误。 获得输出的正确方法:

tt1.reset_index().merge(tt2.reset_index(), how='outer')

答案 1 :(得分:1)

不要mergejoinjoin加入指数。

tt1.join(tt2, how='outer')

答案 2 :(得分:-1)

我已经解决了你的问题。

看看这个解决方案:)

import pandas as pd

tt1 = pd.read_csv('test1.csv', index_col=0)
tt1.index = pd.to_datetime(tt1.index)
tt2 = pd.read_csv('test2.csv', index_col=0)
tt2.index = pd.to_datetime(tt2.index)
tt4 = pd.read_csv('test4.csv', index_col=0)
tt4.index = pd.to_datetime(tt4.index)

tt3 = pd.concat([tt1, tt4], axis=1)
tt4 = tt3.reset_index().merge(tt2.reset_index(), how='outer')
tt4 = tt4.set_index('timestamp')
print(tt4)

希望它有意义