Question

大家好！

我在pandas dataframe multi merge，combination中有一个问题。

Plz，检查以下数据..

Rating csv
UserID ContentID Rating 
U-1      C-1       3
U-1      C-2       4
U-3      C-3       1
U-5      C-1       5

Content csv
Title ContentID Language
T-1      C-1      EN
T-2      C-2      EN
T-3      C-3      EN

User csv
UserID Age Gender
U-1    10    1
U-2    20    0
U-3    30    1
U-4    40    0 
U-5    50    1
U-6    60    0
U-7    70    1

我想要结果

UserID ContentID Rating Title Language Age  Gender
U-1      C-1       3     T-1     EN     10     1
U-1      C-2       4     T-2     EN     10     1
U-1      C-3      NAN    T-3     EN     10     1
U-2      C-1      NAN    T-1     EN     20     0   
U-2      C-2      NAN    T-2     EN     20     0
U-2      C-3      NAN    T-3     EN     20     0
U-3      C-1      NAN    T-1     EN     30     1         
U-3      C-2      NAN    T-2     EN     30     1   
U-3      C-3       1     T-3     EN     30     1    
U-4      C-1      NAN    T-1     EN     40     0    
U-4      C-2      NAN    T-2     EN     40     0   
U-4      C-3      NAN    T-3     EN     40     0   
U-5      C-1       5     T-1     EN     50     1          
U-5      C-2      NAN    T-2     EN     50     1    
U-5      C-3      NAN    T-3     EN     50     1    
U-6      C-1      NAN    T-1     EN     60     0     
U-6      C-2      NAN    T-2     EN     60     0     
U-6      C-3      NAN    T-3     EN     60     0     
U-7      C-1      NAN    T-1     EN     70     1     
U-7      C-2      NAN    T-2     EN     70     1     
U-7      C-3      NAN    T-3     EN     70     1

使用三个文件

目标是匹配与用户相关的所有类型的内容。

总DF行大小是UserID（用户csv）计数* ContentID（内容csv）计数（ex＆gt;高于7 * 3 - > 21行）

所有csv都是相关的。 - 评级/内容 - ＆gt;内容识别（钥匙） - 评级/用户 - ＆gt;用户ID（密钥）

换句话说，结果数据框架仅保留评级区域（NAN），其他区域为无南区。

我使用大csv（实际大小内容（6000），用户（220000）） - ＆GT;总结果行数约为1300亿

PLZ，帮帮我..谢谢..

Pandas Dataframe多次合并，每次结合

0 个答案: