将新字段添加到目录中的文件名 - R

时间:2017-03-26 17:20:18

标签: r filenames

我使用R中的EDGAR软件包从SEC网站上取出10-Ks。幸运的是,文本文件带有一致的文件命名约定:CIK编号(这是一个唯一的文件ID)_File type_Date。

最终我想通过SIC /行业组分析这些,所以我认为最好的方法是将SIC行业代码添加到此文件名规则中。

我在下面列出了我想做的事情。它有点像数据库连接,除了我的文件名将采用新字段。不知道如何做到这一点,我是R和文件脚本的新手。

enter image description here

1 个答案:

答案 0 :(得分:0)

我假设你有一个带有filenames列的data.frame。 (或包含所有文件名的向量)请参阅以下代码:

# A data.frame with a character column 'filenames'
df$CIK <- sapply(df$filenames, FUN = function(x) {unlist(strsplit(x, split = "_"))[1]})
df$CIK <- as.character(df$CIK)

现在,我们假设您有另一个包含两列的data.frame:CIKSIC

# A data.frame with two character columns: 'CIK' and 'SIC'
# df2.
#
# We add another column to the first data.frame: 'new_filenames'
df$new_filename <- sapply(1:nrow(df), FUN = function(idx, CIK, filenames, df2) {
    SIC <- df2$SIC[which(df2$CIK == CIK[idx])]
    new_filename <- as.character(paste(SIC, "_", filenames[idx], sep = ""))
    new_filenames
}, CIK = df$CIK, filenames = df$filenames, df2 = df2)

# Now the new filenames are available in df$new_filenames
View(df)