Python / Pandas:希望通过DataFrame索引中的唯一日期时间来改变一天中的不同时间

时间:2018-09-10 16:07:13

标签: python pandas datetime dataframe indexing

我有一个csv文件pruned_results.txt,看起来像这样:

2018-08-01 08:41:08, Wait for OK to Measure
2018-08-01 09:02:26, Wait for OK to Measure
2018-08-01 10:49:06, Wait for OK to Measure
2018-08-01 14:19:16, Wait for OK to Measure
2018-08-01 21:46:23, Wait for OK to Measure
2018-08-02 01:11:06, Wait for OK to Measure
2018-08-02 02:47:11, Wait for OK to Measure
2018-08-02 04:05:41, Wait for OK to Measure

我想作为大熊猫DataFrame中的DateTime索引导入的第一列。第二列是数据,我称之为State。我有以下代码:

import pandas as pd

df = pd.read_csv("pruned_result.txt", header=None, index_col=0)
df.index = pd.to_datetime(df.index)
df.columns = ['State']
df.index.names = ['Timestamp']

到目前为止,太好了。事实证明,实际上我有一两排带有相同的时间戳。这些对我而言并不重要。因此,我想先删除{@ 1}}列中的重复项。我遇到的问题是,显然,如果行具有相同的日期,则它们被视为重复。但我希望仅当它们一直匹配到一天的同一秒时,才将它们视为重复项。即是代码

State

删除了太多行(在此命令之后,我最终只有六行!)。如何更改此行为,以便仅删除重复的内容?

感谢您的时间!

1 个答案:

答案 0 :(得分:2)

您的问题是<h4>{ this.state[this.props.language].title }</h4>正在基于列删除,在本例中为drop_duplicates。您想保留非重复的索引,因此应该使用'State'来掩盖原始的pandas.Index.duplicated

DataFrame