Pandas Dataframe多次合并,每次结合

时间:2017-10-23 10:29:01

标签: pandas csv dataframe merge combinations

大家好!

我在pandas dataframe multi merge,combination中有一个问题。

Plz,检查以下数据..

Rating csv
UserID ContentID Rating 
U-1      C-1       3
U-1      C-2       4
U-3      C-3       1
U-5      C-1       5

Content csv
Title ContentID Language
T-1      C-1      EN
T-2      C-2      EN
T-3      C-3      EN

User csv
UserID Age Gender
U-1    10    1
U-2    20    0
U-3    30    1
U-4    40    0 
U-5    50    1
U-6    60    0
U-7    70    1

我想要结果

UserID ContentID Rating Title Language Age  Gender
U-1      C-1       3     T-1     EN     10     1
U-1      C-2       4     T-2     EN     10     1
U-1      C-3      NAN    T-3     EN     10     1
U-2      C-1      NAN    T-1     EN     20     0   
U-2      C-2      NAN    T-2     EN     20     0
U-2      C-3      NAN    T-3     EN     20     0
U-3      C-1      NAN    T-1     EN     30     1         
U-3      C-2      NAN    T-2     EN     30     1   
U-3      C-3       1     T-3     EN     30     1    
U-4      C-1      NAN    T-1     EN     40     0    
U-4      C-2      NAN    T-2     EN     40     0   
U-4      C-3      NAN    T-3     EN     40     0   
U-5      C-1       5     T-1     EN     50     1          
U-5      C-2      NAN    T-2     EN     50     1    
U-5      C-3      NAN    T-3     EN     50     1    
U-6      C-1      NAN    T-1     EN     60     0     
U-6      C-2      NAN    T-2     EN     60     0     
U-6      C-3      NAN    T-3     EN     60     0     
U-7      C-1      NAN    T-1     EN     70     1     
U-7      C-2      NAN    T-2     EN     70     1     
U-7      C-3      NAN    T-3     EN     70     1    

使用三个文件

目标是匹配与用户相关的所有类型的内容。

总DF行大小是UserID(用户csv)计数* ContentID(内容csv)计数(ex>高于7 * 3 - > 21行)

所有csv都是相关的。 - 评级/内容 - >内容识别(钥匙) - 评级/用户 - >用户ID(密钥)

换句话说,结果数据框架仅保留评级区域(NAN),其他区域为无南区。

我使用大csv(实际大小内容(6000),用户(220000)) - >总结果行数约为1300亿

PLZ,帮帮我..谢谢..

0 个答案:

没有答案