我有一个大型CSV文件,其中包含三列Reddit数据,一个subreddit名称,一个第二个subreddit名称,以及在过去一个月内发布到这两个subreddits的唯一评论者的数量。
CSV文件包含双向的subreddit关系,例如,CSV中存在以下两行:
Roadcam,Nootropics,39
Nootropics,Roadcam,39
CSV文件中总共有35778434行。
我想将CSV文件导入R并将其存储为稀疏矩阵进行分析。这就是我试图这样做的方式:
subreddit.overlaps <- read.csv("subreddit_overlaps_2017_01.csv")
subreddit.overlaps.matrix <- sparseMatrix(i = as.numeric(subreddit.overlaps[, 1]),
j = as.numeric(subreddit.overlaps[, 2]),
x = subreddit.overlaps[, 3])
然而,我遇到的问题是所产生的稀疏矩阵的维数不是我所期望的。创建的稀疏矩阵似乎只有4561行和68825列。我原本期望尺寸是一个完美的正方形,但事实并非如此。为什么创建稀疏矩阵不是一个完美的正方形?