Question

我目前正在读取目录中的所有csv文件，然后rbind对其进行编辑以创建单个数据框。

library(tidyverse)
# combine all logprob data files into one df with rbind
logprobs <- 
  list.files(path="logprob_files", 
             pattern="*.csv",
             full.names=TRUE) %>%
  map_dfr(read_csv, col_names=c("weight", "token_num", "logsumexp", "p_token"),
          col_types='didd')

，输出为：

> head(logprobs)
# A tibble: 6 x 4
  weight token_num    logsumexp   p_token
   <dbl>     <int>        <dbl>     <dbl>
1   0.00         1 -0.002727356 -7.694870
2   0.01         2 -0.014821058 -7.707247
3   0.02         3 -0.026905438 -7.719624
4   0.03         4 -0.038980089 -7.732001
5   0.04         5 -0.051044584 -7.744378
6   0.05         6 -0.063098471 -7.756755

我想添加一个仅重复文件名的附加列（最终，我将其与token_num列连接。是否可以在现有管道中执行此操作？

我应该补充一点，尽管文件名为“ logprob {1-20} .csv”，但每个文件都有不同数量的令牌，因此我不能仅使用rep附加文件名。

读取多个文件，并将文件名附加到数据框

0 个答案: