Python dfply包 - 加入

时间:2018-04-18 15:27:51

标签: python dfply

来自R并尝试使用Python中的dfply包模拟dplyr。需要一些帮助。

我在这里有两个问题,请帮助。

  1. 如果这些连接列具有不同的名称,我如何连接两个数据集?
  2. 我是否有加入栏目的方式?按照文件记录,我只能加入一栏。
  3. https://github.com/kieferk/dfply#joining

    我喜欢dfply包,但它缺乏关键功能。谢谢你的帮助。或者像R dplyr一样帮我处理Python中的任何其他软件包

1 个答案:

答案 0 :(得分:2)

dfply软件包是基于python中的pandas软件包构建的。它的文档主要用来指导您了解其基本功能。如果转到其github存储库并找到join.py文件,则可以看到各种连接的基础实现依赖于熊猫的df.merge函数。

所以回答您的问题(希望还不算太晚):

  1. 如果两个联接列的名称不同,如何联接两个数据集?

    df>> inner_join(other, by=('A_c1','B_c1'))
    
  2. 我不仅可以参加专栏吗?根据文档,我只能加入一列。

    df>> inner_join(other, by=[('A_c1','B_c1'),('A_c2','B_c2')])
    

我需要添加的一件事是,在撰写本文时,2018年10月,您必须安装该软件包的开发版本,其中添加了多列联接功能。