在Graphlab中,
我正在处理较大列表中的一小部分电影。
movieIds_5K_np = LL_features_SCD_min.to_numpy()[:,0]
ratings_33K_np = ratings_33K.to_numpy()
movieIds_5K_np
是一个包含我的movieIds的数组。 `ratings_33K_np'是一个包含四列的数组,其第二列包含所有电影的电影ID。
我只需要在{movieIds_5K_np'中选择id为ratings_33K_np
的行。
我试过这种方法,但它似乎没有起作用:
ratings_5K_np = ratings_33K_np[ratings_33K_np[:,2]==movieIds_5K_np]
我如何在Graphlab中或使用一些Python库?我应该说原来ratings_33K
和movieIds_5K
是作为SFrame导入的。
由于
答案 0 :(得分:1)
鉴于您有2 sframe
个,您可以执行join
,如下所示:
ratings_5K = LL_features_SCD_min[['id_column_name']].join(ratings_33K, on='id_column_name', how='left')
据我所知,您的代码LL_features_SCD_min
是与您的迷你相对应的sframe
(5K数据)。因此,您只需获取所需的ID,然后将它们与整个数据集连接起来,从而获得只有您想要的ID的新sframe
。只需替换你的id列名称即可。
有关join
graphlab
工作原理的详细信息,请考虑查看SFrame
上的documentation。