我需要生成一个表,其中包含一种且只有特定格式的变量,因为它将用作另一个程序的输入。为此,我试图重塑看起来像这样的数据(当然使用R):
# A tibble: 185,754 x 4
rowid `SMPDB ID` `HMDB ID` `TRUE`
<int> <chr> <chr> <lgl>
1 1 SMP00004 HMDB0006454 TRUE
2 2 SMP00004 HMDB0001451 TRUE
3 3 SMP00004 HMDB0000005 TRUE
4 4 SMP00005 HMDB0000142 TRUE
5 5 SMP00006 HMDB0000060 TRUE
6 6 SMP00008 HMDB0000060 TRUE
7 7 SMP00009 HMDB0001451 TRUE
8 8 SMP00011 HMDB0004249 TRUE
9 9 SMP00011 HMDB0003850 TRUE
10 10 SMP00011 HMDB0006953 TRUE
# ... with 185,744 more rows
每个SMPDB ID
都有不同的HMDB ID
,
而且我需要类似的东西:
SMPDB ID HMDB IDs
HMDB0006454 SMP00004, SMP00027, SMP00060, ...
HMDB0001451 SMP00004, SMP00008, SMP00090, ...
...
仅包含两列,第一列包含SMPDB ID
,另一列包含所有HMDB ID
。
您认为可以像这样重塑它吗?
也许以spread
开头?
Here如果您想尝试一下起始表!
提前谢谢!