Question

在Graphlab中，

我正在处理较大列表中的一小部分电影。

  movieIds_5K_np = LL_features_SCD_min.to_numpy()[:,0]
  ratings_33K_np = ratings_33K.to_numpy()

movieIds_5K_np是一个包含我的movieIds的数组。 `ratings_33K_np'是一个包含四列的数组，其第二列包含所有电影的电影ID。

我只需要在{movieIds_5K_np'中选择id为ratings_33K_np的行。

我试过这种方法，但它似乎没有起作用：

 ratings_5K_np = ratings_33K_np[ratings_33K_np[:,2]==movieIds_5K_np]

我如何在Graphlab中或使用一些Python库？我应该说原来ratings_33K和movieIds_5K是作为SFrame导入的。

由于

Answer 1

鉴于您有2 sframe个，您可以执行join，如下所示：

ratings_5K = LL_features_SCD_min[['id_column_name']].join(ratings_33K, on='id_column_name', how='left')

据我所知，您的代码LL_features_SCD_min是与您的迷你相对应的sframe（5K数据）。因此，您只需获取所需的ID，然后将它们与整个数据集连接起来，从而获得只有您想要的ID的新sframe。只需替换你的id列名称即可。

有关join graphlab工作原理的详细信息，请考虑查看SFrame上的documentation。

祝你好运！