熊猫日期重叠

时间:2016-10-20 14:42:45

标签: python pandas

所以我有一个相当困难的问题,一直困扰我几天涉及熊猫数据帧。

假设我有一个大约100,000行的数据框,其中包含以下列:

<div class="container">
  <div class="myClass">1111111111111111111111111111111111111111111</div>
  <div class="myClass">222222222222222222222222222222222222222222</div>
  <div class="myClass">333333333333333333333333333333333333333</div>
  <div class="myClass">444444444444444444444444444444444444444444444444444</div>
  <div class="myClass">55555555555555555555555555555555555555</div>
  <div class="myClass">66666666666666666666666666666666666666666666666666</div>
  <div class="myClass">7777777777777777777777777777777777777777</div>
  <div class="myClass">88888888888888888888888888888888888888888888888888</div>
  <div class="myClass">99999999999999999999999999999999999</div>
  <div class="myClass">1010101010101010101010101010101010101010101010</div>
</div>

基本上,从这个数据框中,我想提取一个包含所有具有重复member_id, p1_start, p1_end, p2_start, and p2_end. 的行的子集。在此子集中,我想专门选择其member_ids位于任何其他member_ids p1_startmember_ids之间的p1_start

有没有人对如何做到这一点有好主意?

以下是数据框的示例。

    member_id   p2_start    p2_end  p3_start    p3_end
0   100042881   2013-03-25  2013-03-26  2013-03-26  2013-06-23
1   100085837   2012-09-24  2012-10-02  2012-10-02  2012-12-30
2   100086649   2014-02-17  2014-02-20  2014-02-20  2014-05-20
3   100091388   2014-10-18  2014-10-25  2014-10-25  2015-01-22
4   100273057   2013-03-06  2013-03-09  2013-03-09  2013-06-06

我想创建一个额外的列,用于标记该行是否为重叠行。

0 个答案:

没有答案