我目前正在读取目录中的所有csv文件,然后rbind
对其进行编辑以创建单个数据框。
library(tidyverse)
# combine all logprob data files into one df with rbind
logprobs <-
list.files(path="logprob_files",
pattern="*.csv",
full.names=TRUE) %>%
map_dfr(read_csv, col_names=c("weight", "token_num", "logsumexp", "p_token"),
col_types='didd')
,输出为:
> head(logprobs)
# A tibble: 6 x 4
weight token_num logsumexp p_token
<dbl> <int> <dbl> <dbl>
1 0.00 1 -0.002727356 -7.694870
2 0.01 2 -0.014821058 -7.707247
3 0.02 3 -0.026905438 -7.719624
4 0.03 4 -0.038980089 -7.732001
5 0.04 5 -0.051044584 -7.744378
6 0.05 6 -0.063098471 -7.756755
我想添加一个仅重复文件名的附加列(最终,我将其与token_num
列连接。是否可以在现有管道中执行此操作?
我应该补充一点,尽管文件名为“ logprob {1-20} .csv”,但每个文件都有不同数量的令牌,因此我不能仅使用rep
附加文件名。