Python通过内连接合并Pandas数据集有两个字段

时间:2017-12-07 12:22:08

标签: python join inner-join

我在社区内是全新的,所以我希望你能有点耐心。 我试图通过在字段上使用内部联接来合并两个数据集"邮政编码"和"日期"。 原始代码如下:

Datapump = pd.merge(hack, health, how='inner', left_index=True, right_index=True)

但重点是,每当我尝试执行头部时,我都会得到一个空数据集;如果执行样本,我会得到最差的错误: 所以我把字段作为索引' Date'对于黑客和现场'创造'为了健康。然后我去参加。

Datapump = pd.merge(hack, health, how='inner', left_on=['CP'], right_on=['cp'])

不幸的是我还需要现场邮政编码。所以我在下面再做一次加入 <class 'pandas.core.frame.DataFrame'>

现在我可以得到样本和头部,但是根据我的说法,一切都变得奇怪,特别是一旦我看到新数据集的条目数量:

name = request.POST['name']

Int64Index:803206条目,0到803205 数据列(共15列): CP 803206非null对象 Tipo Contaminante 803206非null int64 Valor 803206非null float64 已验证803206非空对象 nombre 803206非null对象 edad 801296非null对象 cp 803206非null对象 patologia 802387非null对象 创建803206非null datetime64 [ns] Edad_Cat 786829非空类 持续时间772661非null timedelta64 [ns] Duration_Seconds 772661非null float64 weekdays_created 803206非null int64 月803206非null float64 cat_month 803206非null int64 dtypes:category(1),datetime64ns,float64(3),int64(3),object(6),timedelta64ns 内存使用量:92.7+ MB

实际上,在健康状况之前,大约有9000个条目并且大约有6000个条目。 我不能通过执行内部联接获得803.206条目的数据集。

如何以能够提供有意义且合理的结果的方式进行内连接?

非常感谢耐心。

安德烈

1 个答案:

答案 0 :(得分:0)

最终我能够解决这个问题。问题是由于数据框内存在问题。我打开orginial csv文件并手动清理有问题的行。然后我重新导入新文件,我就能够进行连接。 问候, 安德烈