在R中使用大型数据集

时间:2016-03-30 22:01:40

标签: r matrix statistics adjacency-matrix

我正在尝试生成用于在R中使用网络的矩阵。

我从这个堆栈溢出帖子中执行了以下步骤。

How to create an adjacency matrix from raw data which is non-numeric in nature

我创建了跟随帖子中的三个方法,但没有一个工作。

我的数据是这样构建的:

UserID | TaskID
505050 | elx-1010
505051 | elz-1211
505052 | elx-1911
505053 | elz-1414
505054 | elf-1014
505055 | fze-1415
505056 | elx-1210

我有50.000行这些数据。我的问题是:

  1. 数据集太大而不能成为矩阵?
  2. 字符串列(TaskID)需要是整数吗?
  3. 我使用了独特且非唯一的值。这对结果有影响吗?
  4. 我有8 GB的RAM。当我运行命令制作矩阵时,笔记本使用了所有内存几次,并在几分钟后给出结果。
  5. 我正在努力阐述加权网络。这似乎是错误的,因为我将有一个非方矩阵。

0 个答案:

没有答案