所以我有一个相当困难的问题,一直困扰我几天涉及熊猫数据帧。
假设我有一个大约100,000行的数据框,其中包含以下列:
<div class="container">
<div class="myClass">1111111111111111111111111111111111111111111</div>
<div class="myClass">222222222222222222222222222222222222222222</div>
<div class="myClass">333333333333333333333333333333333333333</div>
<div class="myClass">444444444444444444444444444444444444444444444444444</div>
<div class="myClass">55555555555555555555555555555555555555</div>
<div class="myClass">66666666666666666666666666666666666666666666666666</div>
<div class="myClass">7777777777777777777777777777777777777777</div>
<div class="myClass">88888888888888888888888888888888888888888888888888</div>
<div class="myClass">99999999999999999999999999999999999</div>
<div class="myClass">1010101010101010101010101010101010101010101010</div>
</div>
基本上,从这个数据框中,我想提取一个包含所有具有重复member_id, p1_start, p1_end, p2_start, and p2_end.
的行的子集。在此子集中,我想专门选择其member_ids
位于任何其他member_ids
p1_start
和member_ids
之间的p1_start
。
有没有人对如何做到这一点有好主意?
以下是数据框的示例。
member_id p2_start p2_end p3_start p3_end 0 100042881 2013-03-25 2013-03-26 2013-03-26 2013-06-23 1 100085837 2012-09-24 2012-10-02 2012-10-02 2012-12-30 2 100086649 2014-02-17 2014-02-20 2014-02-20 2014-05-20 3 100091388 2014-10-18 2014-10-25 2014-10-25 2015-01-22 4 100273057 2013-03-06 2013-03-09 2013-03-09 2013-06-06
我想创建一个额外的列,用于标记该行是否为重叠行。