我正在使用互联网上有关用户及其电影评级的数据库。在我从csv文件中读取它们并将它们保存到数据框后,我想创建一个用户电影评级数组。
user_dataframe : user_id,movie_id,stars
0 02 3
1 01 2
2 03 5
0 01 4
0 03 5
movie_dataframe : movie_id,average_rating,genre
02 3.5 horror
03 4 action
01 2.5 adventure
数组的预期输出:
user_id | 0 | 1 | 2
movie_id| | |
01 | 4 | 2 | NaN
02 | 3 | NaN | NaN
03 | 5 | NaN | 5
我尝试使用df.pivot_table但我收到一条错误消息:包含重复的条目,无法重塑。我也尝试使用numpy数组但我在使用字符串时遇到了麻烦。任何帮助,将不胜感激!!
答案 0 :(得分:0)
我试过
df.pivot_table(index='movie_id',columns='user_id')
并且有效