Question

我正在使用互联网上有关用户及其电影评级的数据库。在我从csv文件中读取它们并将它们保存到数据框后，我想创建一个用户电影评级数组。

user_dataframe : user_id,movie_id,stars
                    0       02      3
                    1       01      2
                    2       03      5
                    0       01      4
                    0       03      5

movie_dataframe : movie_id,average_rating,genre
                     02        3.5        horror
                     03         4         action
                     01        2.5        adventure

数组的预期输出：

user_id |  0  |  1   | 2  
movie_id|     |      |
01      |  4  |  2   | NaN
02      |  3  | NaN  | NaN
03      |  5  | NaN  |  5

我尝试使用df.pivot_table但我收到一条错误消息：包含重复的条目，无法重塑。我也尝试使用numpy数组但我在使用字符串时遇到了麻烦。任何帮助，将不胜感激！！

Answer 1

我试过

df.pivot_table(index='movie_id',columns='user_id')

并且有效

创建用户电影评级数组

1 个答案: