我正在尝试将最新的MovieLens数据集(小)转换为矩阵。基本上,这是一个包含三列的“列表”:用户ID,电影ID和评分。我希望用户成为行,项目成为列,等级应该是矩阵的内容。
我之前已经在stackoverflow上进行过搜索,但发现的最接近的方法是:Transforming Dataset into value matrix
实际上,这种方法确实非常有效,但是如果我使用sparseMatrix函数,矩阵中将没有NA。当然,sparseMatrix是节省存储容量的好方法,但是我需要矩阵中的NA,因为我使用它们来计算两个用户之间的相似项的数量。
数据集如下:
|userId|movieId|rating
|1 |1 |3.5
|1 |3 |2.5
|1 |5 |3.0
|1 |412 |2.5
|2 |13 |4.5
|3 |412 |5
以此类推。
现在,我想将此数据集转换为矩阵,使其看起来像这样:
1 | 2 | 3 | 4 | 5 | ...
1| 3,5 |NA |2,5| NA|3,0| ...
_____________________
2| NA |NA |NA | NA| NA| ...
_____________________
3| NA |NA |NA | NA|5,0| ...
______________________
我希望这种可视化对我的问题有所帮助。很抱歉,它看起来像不是stackoverflow上的典型问题,但我在这里很陌生。
如果你们中的一个能解决我的问题,那将是非常棒的!提前非常感谢!
亲切的问候