我有一个看起来像这样的数据集:
library(tidyverse)
data <- tibble(id = 1:10,
vectors = list(rnorm(25)))
# A tibble: 25 x 2
id vectors
<int> <list>
1 1 <dbl [25]>
2 2 <dbl [25]>
3 3 <dbl [25]>
4 4 <dbl [25]>
5 5 <dbl [25]>
6 6 <dbl [25]>
7 7 <dbl [25]>
8 8 <dbl [25]>
9 9 <dbl [25]>
10 10 <dbl [25]>
我想使用此数据集查找每行代表一个文档的余弦相似度。 cosine
软件包中的lsa
函数似乎是一种实现此目的的好方法,但是我需要将每个文档都表示为一列。我只想做data %>% t()
就可以达到我想要的结果,但这是行不通的。我还尝试过先使用unest
和spread
“传播”列表列。我也尝试flatten
无济于事。我想要的输出的第一行看起来像:
1 2 3 4 5 6 7 8 9 10
0.1 0.3 0.7 0.3 0.1 0.1 0.3 0.7 0.3 0.1
如果另一个程序包中有一个函数可以处理这种格式的数据,那么我绝对会使用它,尽管在这一点上,我想从好奇心的角度解决这个问题。我看过R - list to data frame,但不确定如何将其应用于这种情况。
这样做的背景是,我已经使用gensim在python中执行了doc2vec,但是在工作中对我们的环境有所影响,如果我想为客户端构建交互内容,则需要在R中使用。
答案 0 :(得分:1)
require(dplyr)
require(tidyr)
mutate(data,vectors=sapply(vectors, function(x) paste(x,collapse=","))) %>%
separate_rows(vectors,sep=",") %>%
group_by(id) %>%
mutate(numb=row_number(),vectors=as.numeric(vectors)) %>%
spread(key=numb,value=vectors)
# A tibble: 10 x 26
# Groups: id [10]
id `1` `2` `3` `4` `5` `6` `7` `8` `9` `10` `11` `12` `13` `14` `15` `16`
<int> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 1 1.46 0.140 0.209 -3.04 -0.487 -1.09 0.0579 1.10 -0.0256 0.515 0.990 0.303 -0.930 0.0840 0.527 0.0159
2 2 1.46 0.140 0.209 -3.04 -0.487 -1.09 0.0579 1.10 -0.0256 0.515 0.990 0.303 -0.930 0.0840 0.527 0.0159
3 3 1.46 0.140 0.209 -3.04 -0.487 -1.09 0.0579 1.10 -0.0256 0.515 0.990 0.303 -0.930 0.0840 0.527 0.0159
4 4 1.46 0.140 0.209 -3.04 -0.487 -1.09 0.0579 1.10 -0.0256 0.515 0.990 0.303 -0.930 0.0840 0.527 0.0159
5 5 1.46 0.140 0.209 -3.04 -0.487 -1.09 0.0579 1.10 -0.0256 0.515 0.990 0.303 -0.930 0.0840 0.527 0.0159
6 6 1.46 0.140 0.209 -3.04 -0.487 -1.09 0.0579 1.10 -0.0256 0.515 0.990 0.303 -0.930 0.0840 0.527 0.0159
7 7 1.46 0.140 0.209 -3.04 -0.487 -1.09 0.0579 1.10 -0.0256 0.515 0.990 0.303 -0.930 0.0840 0.527 0.0159
8 8 1.46 0.140 0.209 -3.04 -0.487 -1.09 0.0579 1.10 -0.0256 0.515 0.990 0.303 -0.930 0.0840 0.527 0.0159
9 9 1.46 0.140 0.209 -3.04 -0.487 -1.09 0.0579 1.10 -0.0256 0.515 0.990 0.303 -0.930 0.0840 0.527 0.0159
10 10 1.46 0.140 0.209 -3.04 -0.487 -1.09 0.0579 1.10 -0.0256 0.515 0.990 0.303 -0.930 0.0840 0.527 0.0159
# ... with 9 more variables: `17` <dbl>, `18` <dbl>, `19` <dbl>, `20` <dbl>, `21` <dbl>, `22` <dbl>, `23` <dbl>,
# `24` <dbl>, `25` <dbl>
我发现通过首先将数据收集为长数据格式来传播数据是最容易的。我们使用separate_rows
实现了这一目标。那里的问题是,我们首先需要将向量中的列表转换成separate_rows
可以使用的东西。我们使用paste
和collapse=","
并在一个apply中执行此操作(否则所有列表将粘贴在一起)。
一旦有了这些信息,只需进行分组,添加行索引列(并将数字转换回数字),然后进行扩展即可获得所需的格式。