我有一个csv文件pruned_results.txt
,看起来像这样:
2018-08-01 08:41:08, Wait for OK to Measure
2018-08-01 09:02:26, Wait for OK to Measure
2018-08-01 10:49:06, Wait for OK to Measure
2018-08-01 14:19:16, Wait for OK to Measure
2018-08-01 21:46:23, Wait for OK to Measure
2018-08-02 01:11:06, Wait for OK to Measure
2018-08-02 02:47:11, Wait for OK to Measure
2018-08-02 04:05:41, Wait for OK to Measure
我想作为大熊猫DataFrame中的DateTime索引导入的第一列。第二列是数据,我称之为State
。我有以下代码:
import pandas as pd
df = pd.read_csv("pruned_result.txt", header=None, index_col=0)
df.index = pd.to_datetime(df.index)
df.columns = ['State']
df.index.names = ['Timestamp']
到目前为止,太好了。事实证明,实际上我有一两排带有相同的时间戳。这些对我而言并不重要。因此,我想先删除{@ 1}}列中的重复项。我遇到的问题是,显然,如果行具有相同的日期,则它们被视为重复。但我希望仅当它们一直匹配到一天的同一秒时,才将它们视为重复项。即是代码
State
删除了太多行(在此命令之后,我最终只有六行!)。如何更改此行为,以便仅删除重复的内容?
感谢您的时间!
答案 0 :(得分:2)
您的问题是<h4>{ this.state[this.props.language].title }</h4>
正在基于列删除,在本例中为drop_duplicates
。您想保留非重复的索引,因此应该使用'State'
来掩盖原始的pandas.Index.duplicated
DataFrame