我选择了提及和未提及“Korona”的行,并按日期对其进行计数。有些日期没有 Korona True。 数据框看起来像:
表 1
发布日期 | 电晕 | 计数 | |
---|---|---|---|
242 | 2020-06-01 | 错误 | 13 |
243 | 2020-06-01 | 真的 | 3 |
244 | 2020-06-02 | 错误 | 7 |
245 | 2020-06-02 | 真的 | 1 |
246 | 2020-06-03 | 错误 | 11 |
247 | 2020-06-04 | 错误 | 8 |
248 | 2020-06-04 | 真的 | 1 |
249 | 2020-06-05 | 错误 | 10 |
250 | 2020-06-06 | 错误 | 5 |
251 | 2020-06-07 | 错误 | 5 |
252 | 2020-06-08 | 错误 | 14 |
我要做的是删除重复的日期行,但将值转换为另一列。例如:
发布日期 | 电晕 | 计数 | |
---|---|---|---|
242 | 2020-06-01 | 错误 | 13 |
243 | 2020-06-01 | 真的 | 3 |
看起来像这样(在对列进行了一些重命名并添加了一个 Count-All 列之后):
表 2
发布日期 | Count-NoKorona | Count-Korona | 全部计数 | |
---|---|---|---|---|
152 | 2020-06-01 | 13 | 3 | 16 |
我正在使用此代码(在 Python, Merging rows with same value in one column 上找到):
df = df.set_index(['Published_date', df.groupby('Published_date').cumcount()])['Count'].unstack().add_prefix('Count').reset_index()
问题: 出于某种原因,在那行代码之后,我的数据被混淆了。
在那条线之前一切都很好。我有 782 Korona True 行(在测试中,我只从表 1 中提取了“True”行,并总结了它的计数,结果是正确的 --> 782)。所以 782/3443 正确。
在代码行之后,我得到 1011/3443 的总和。
我猜是日期的一些错误值,或者它被混淆了,但我不知道如何修复它,而且数据表太大,无法手动找到错误来尝试理解问题更好。
如果能得到任何帮助,我将不胜感激。 (如果问题看起来不太好,也很抱歉,这是我的第一个 :D)