可以使用不同的值

时间:2017-10-06 18:26:03

标签: python pandas

我有一个日期时间索引DataFrame,(65列(为清晰起见仅显示9) - >传感器数量,x行 - >观察数量(对于样本数据我将其限制为700行,至说明我遇到的问题)。 demo csv: https://pastebin.com/mpSgJF94

    swp_data = pd.read_csv(FILE_NAME, index_col=0, header=0, parse_dates=True, infer_datetime_format=True)
swp_data = swp_data.sort_index()

对于每一列,我需要找到值为列最大值的95%的点,并从DataFrame的开头计算到95%点,其中时间步长之间的差异大于给定值(在这种情况下为0.2)。

类似于在R中工作的东西(不是实际的代码,而是插图)

  for (i in 1 : 95% point){
  difference[i] <- s[i] - s[(i-1)]
}
breaking <-which(difference > 0.2)[1]

将95%的点作为循环的结束索引,并查看时间步长之间的差异并返回索引值,其中差值&gt; 0.2

在熊猫中,我计算了以下内容: 95%的价值

    s95 = (swp_data.max() + (swp_data.max() * .05))

A1-24,-20.6260635, A1-18,-17.863923, A1-12,-11.605629, A2-24,-16.755144, A2-18,-17.6815275, A2-12,-16.369584, A3-24,-15.5030295,

95%的时间

    s95_time = (swp_data >= (swp_data.max() + (swp_data.max() * .05))).idxmax()

A1-24,10 / 2/2011 1:30, A1-18,10 / 3/2011 6:20, A1-12,10 / 10/2011 17:20, A2-24,10 / 3/2011 6:10, A2-18,10 / 3/2011 1:30, A2-12,10 / 10/2011 17:10, A3-24,10 / 20/2011 1:30,

到目前为止,我有最大值,95%的值,以及每列达到95%点的一系列时间戳。 s95值:

我试图通过创建值<= 95%点的布尔数据帧来尝试掩盖DataFrame(尝试复制R&#39),并尝试使用值&gt; = 95%来尝试df.where。无论是掩模还是在哪里都没有提供我需要的东西,因为当我开始记录时,某些传感器已经超过95%的最大值(掩模为这些值返回NaN),而返回这些值但不返回95以下的值。 %门槛。

我正在寻找的输出将是

      A1-24, A1-18, A1-12, A2-24, A2-18, A2-12, A3-24, A3-18, A3-12
BREAKING  hh:mm, hh:mm, hh:mm, hh:mm, hh:mm, hh:mm, hh:mm, hh:mm, hh:mm

其中hh:mm等于从数据文件开始到中断值的时间。

到目前为止,我在SE和谷歌上找到了,如果我可以用不同的值对数据帧的列进行子集,并且我无法确定我想要做的事情,那么我会感到困惑。

编辑:@Prateek评论:

我想要做的是找到一种方法,我可以在某种程度上自动化这个过程,因此使用95%的位置我可以返回断点。我有大约200个csv文件正在尝试处理,并且希望尽可能多地使用95%和中断位置进行过滤。

1 个答案:

答案 0 :(得分:1)

根据我的理解,可能的解决方案。 请注意,我在示例中将swap_data重命名为df,并根据您提问的csv示例文件对解决方案进行了测试。

查找从开始到值达到列的最大值

的95%的持续时间

找到每列达到最大值95%的第一个时间点,如下所述:

idx = (df >= df.max(axis=0) * 1.05).idxmax()

>>> idx
Out[]:
A1-24   2011-10-02 01:30:00
A1-18   2011-10-03 06:20:00
A1-12   2011-10-02 17:20:00
A2-24   2011-10-03 06:10:00
A2-18   2011-10-03 01:30:00
A2-12   2011-10-02 17:10:00
A3-24   2011-10-02 01:30:00
dtype: datetime64[ns]

请注意,与df.max() * 1.05相比,使用max可以避免计算s95 = (swp_data.max() + (swp_data.max() * .05))两次,否则它会相同。

然后通过减去第一个时间戳

来计算从数据帧开始计算的持续时间
>>> idx - df.index[0]
Out[]:
A1-24   0 days 00:00:00
A1-18   1 days 04:50:00
A1-12   0 days 15:50:00
A2-24   1 days 04:40:00
A2-18   1 days 00:00:00
A2-12   0 days 15:40:00
A3-24   0 days 00:00:00
dtype: timedelta64[ns]

这是每列从记录开始到s95点所花费的时间。 如果第一个记录值已经高于此点,则时间为0.

屏蔽数据帧以涵盖此期间

mask = pd.concat([pd.Series(df.index)] * df.columns.size, axis=1) < idx.values.T
df_masked = df.where(mask.values)

>>> df_masked.dropna(how='all')
Out[]:
                     A1-24     A1-18     A1-12     A2-24     A2-18     A2-12  A3-24
Timestamp
2011-10-02 01:30:00    NaN -18.63589 -16.90389 -17.26780 -19.20653 -19.59666    NaN
2011-10-02 01:40:00    NaN -18.64686 -16.93100 -17.26832 -19.22702 -19.62036    NaN
2011-10-02 01:50:00    NaN -18.65098 -16.92761 -17.26132 -19.22705 -19.61355    NaN
2011-10-02 02:00:00    NaN -18.64307 -16.94764 -17.27702 -19.22746 -19.63462    NaN
2011-10-02 02:10:00    NaN -18.66338 -16.94900 -17.27325 -19.25358 -19.62761    NaN
2011-10-02 02:20:00    NaN -18.66217 -16.95625 -17.27386 -19.25455 -19.64009    NaN
2011-10-02 02:30:00    NaN -18.66015 -16.96130 -17.27040 -19.25898 -19.64241    NaN
2011-10-02 02:40:00    NaN -18.66883 -16.96980 -17.27580 -19.27054 -19.65454    NaN
2011-10-02 02:50:00    NaN -18.68635 -16.97897 -17.27488 -19.28492 -19.65808    NaN
2011-10-02 03:00:00    NaN -18.68009 -16.99057 -17.28346 -19.28928 -19.67182    NaN
2011-10-02 03:10:00    NaN -18.68450 -17.00258 -17.28196 -19.32272 -19.68135    NaN
2011-10-02 03:20:00    NaN -18.68777 -17.01009 -17.29675 -19.30864 -19.68747    NaN
2011-10-02 03:30:00    NaN -18.70067 -17.01706 -17.29178 -19.32034 -19.69742    NaN
2011-10-02 03:40:00    NaN -18.70095 -17.03559 -17.29352 -19.32741 -19.70945    NaN
2011-10-02 03:50:00    NaN -18.70636 -17.03651 -17.28925 -19.33549 -19.71560    NaN
2011-10-02 04:00:00    NaN -18.70937 -17.03548 -17.28996 -19.33433 -19.71211    NaN
2011-10-02 04:10:00    NaN -18.70599 -17.04444 -17.29223 -19.33740 -19.72227    NaN
2011-10-02 04:20:00    NaN -18.71292 -17.05510 -17.29449 -19.35154 -19.72779    NaN
2011-10-02 04:30:00    NaN -18.72158 -17.06376 -17.28770 -19.35647 -19.73064    NaN
2011-10-02 04:40:00    NaN -18.72185 -17.06910 -17.30018 -19.36785 -19.74481    NaN
2011-10-02 04:50:00    NaN -18.72048 -17.06599 -17.29004 -19.37320 -19.73424    NaN
2011-10-02 05:00:00    NaN -18.73083 -17.07618 -17.29528 -19.37319 -19.75045    NaN
2011-10-02 05:10:00    NaN -18.72215 -17.08587 -17.29650 -19.38400 -19.75713    NaN
2011-10-02 05:20:00    NaN -18.73206 -17.10233 -17.29767 -19.39254 -19.76838    NaN
2011-10-02 05:30:00    NaN -18.73719 -17.09621 -17.29842 -19.39363 -19.76258    NaN
2011-10-02 05:40:00    NaN -18.73839 -17.10910 -17.29237 -19.40390 -19.76864    NaN
2011-10-02 05:50:00    NaN -18.74257 -17.12091 -17.29398 -19.40846 -19.78042    NaN
2011-10-02 06:00:00    NaN -18.74327 -17.12995 -17.29097 -19.41153 -19.77897    NaN
2011-10-02 06:10:00    NaN -18.74326 -17.04482 -17.28397 -19.40928 -19.77430    NaN
2011-10-02 06:20:00    NaN -18.73100 -16.86221 -17.28575 -19.40956 -19.78396    NaN
...                    ...       ...       ...       ...       ...       ...    ...
2011-10-03 01:20:00    NaN -18.16448       NaN -16.99797 -17.95030       NaN    NaN
2011-10-03 01:30:00    NaN -18.15606       NaN -16.98879       NaN       NaN    NaN
2011-10-03 01:40:00    NaN -18.12795       NaN -16.97951       NaN       NaN    NaN
2011-10-03 01:50:00    NaN -18.12974       NaN -16.97937       NaN       NaN    NaN
2011-10-03 02:00:00    NaN -18.11848       NaN -16.96770       NaN       NaN    NaN
2011-10-03 02:10:00    NaN -18.11879       NaN -16.95256       NaN       NaN    NaN
2011-10-03 02:20:00    NaN -18.08212       NaN -16.95461       NaN       NaN    NaN
2011-10-03 02:30:00    NaN -18.09060       NaN -16.94141       NaN       NaN    NaN
2011-10-03 02:40:00    NaN -18.07000       NaN -16.93006       NaN       NaN    NaN
2011-10-03 02:50:00    NaN -18.07461       NaN -16.91700       NaN       NaN    NaN
2011-10-03 03:00:00    NaN -18.06039       NaN -16.91466       NaN       NaN    NaN
2011-10-03 03:10:00    NaN -18.04229       NaN -16.89537       NaN       NaN    NaN
2011-10-03 03:20:00    NaN -18.03514       NaN -16.89753       NaN       NaN    NaN
2011-10-03 03:30:00    NaN -18.03014       NaN -16.88813       NaN       NaN    NaN
2011-10-03 03:40:00    NaN -18.00851       NaN -16.88086       NaN       NaN    NaN
2011-10-03 03:50:00    NaN -18.01028       NaN -16.87721       NaN       NaN    NaN
2011-10-03 04:00:00    NaN -18.00227       NaN -16.86687       NaN       NaN    NaN
2011-10-03 04:10:00    NaN -17.98804       NaN -16.85424       NaN       NaN    NaN
2011-10-03 04:20:00    NaN -17.96740       NaN -16.84466       NaN       NaN    NaN
2011-10-03 04:30:00    NaN -17.96451       NaN -16.84205       NaN       NaN    NaN
2011-10-03 04:40:00    NaN -17.95414       NaN -16.82609       NaN       NaN    NaN
2011-10-03 04:50:00    NaN -17.93661       NaN -16.81903       NaN       NaN    NaN
2011-10-03 05:00:00    NaN -17.92905       NaN -16.80737       NaN       NaN    NaN
2011-10-03 05:10:00    NaN -17.92743       NaN -16.80582       NaN       NaN    NaN
2011-10-03 05:20:00    NaN -17.91504       NaN -16.78991       NaN       NaN    NaN
2011-10-03 05:30:00    NaN -17.89965       NaN -16.78469       NaN       NaN    NaN
2011-10-03 05:40:00    NaN -17.89945       NaN -16.77288       NaN       NaN    NaN
2011-10-03 05:50:00    NaN -17.88822       NaN -16.76610       NaN       NaN    NaN
2011-10-03 06:00:00    NaN -17.87259       NaN -16.75742       NaN       NaN    NaN
2011-10-03 06:10:00    NaN -17.87308       NaN       NaN       NaN       NaN    NaN

[173 rows x 7 columns]

要实现此目的,您必须为每列计算bool掩码:

  1. 创建一个数据框,其DateTimeIndex值重叠在与dfpd.concat([pd.Series(df.index)] * df.columns.size, axis=1)相同的列数上。 此处df.index必须转换为pd.Series进行连接,然后重复以匹配列数df.columns.size

  2. 使用< idx.values.T创建掩码本身,其中values获取idx作为numpy.arrayT转置它以便比较列 - 明智的数据框架。

  3. 使用df.where(mask.values)屏蔽数据框,其中使用values将掩码设为numpy.array。这是必需的,因为蒙版与df没有相同的标签。

  4. 可选择仅使用NaN

  5. 保留至少一个值不是.dropna(how='all')的行

    过滤每个时间点

    之间差异的屏蔽数据

    如果我理解的话,您希望在每个时间点和所选时间段之间过滤difference > 0.2上的数据。 我仍然有点不清楚,如果我误解,请不要犹豫在评论中讨论。

    这可以通过以下方式完成:

    df[df_masked.diff(1) > 0.2]
    

    但遗憾的是,对于提供的数据集,没有符合这些条件的值。

    >>> df[df_masked.diff(1) > 0.2].any()
    Out[]:
    A1-24    False
    A1-18    False
    A1-12    False
    A2-24    False
    A2-18    False
    A2-12    False
    A3-24    False
    dtype: bool
    

    修改:将结果视为bool数据框(评论跟进)

    使用df_masked.diff(1) > 0.2非常简单地将结果可视化为具有索引和列的布尔数据帧。 但是,可能会有很多不必要的行只包含False,因此您可以这样过滤它:

    df_diff = df_masked.diff(1) > 0.1  # Raising the threshold a bit to get some values
    
    >>> df_diff[df_diff.any(axis=1)]
    Out[]:
                         A1-24  A1-18  A1-12  A2-24  A2-18  A2-12  A3-24
    Timestamp
    2011-10-02 06:20:00  False  False   True  False  False  False  False
    2011-10-02 06:30:00  False  False   True  False  False  False  False
    2011-10-02 06:40:00  False  False   True  False  False  False  False
    2011-10-02 06:50:00  False  False   True  False  False  False  False
    2011-10-02 07:00:00  False  False   True  False  False  False  False
    2011-10-02 07:10:00  False  False   True  False  False  False  False
    2011-10-02 07:20:00  False  False   True  False  False  False  False
    2011-10-02 07:30:00  False  False   True  False  False  False  False
    2011-10-02 07:40:00  False  False   True  False  False  False  False
    2011-10-02 07:50:00  False  False   True  False  False  False  False
    2011-10-02 08:00:00  False  False   True  False  False  False  False
    2011-10-02 08:10:00  False  False   True  False  False  False  False
    2011-10-02 08:20:00  False  False   True  False  False  False  False
    2011-10-02 08:30:00  False  False   True  False  False  False  False
    2011-10-02 08:40:00  False  False   True  False  False  False  False
    2011-10-02 08:50:00  False  False   True  False  False  False  False
    2011-10-02 09:00:00  False  False   True  False  False  False  False
    2011-10-02 09:10:00  False  False   True  False  False  False  False
    2011-10-02 09:20:00  False  False   True  False  False  False  False
    2011-10-02 09:30:00  False  False   True  False  False  False  False
    2011-10-02 12:20:00  False  False  False  False  False   True  False
    2011-10-02 12:50:00  False  False  False  False   True   True  False
    2011-10-02 13:10:00  False  False  False  False  False   True  False