Question

我有一个在数据框中分层编码的变量。像这样：

df$variable
[1] "62010" "79110" "69202" "96040" "90010" "59200" ...

现在我想把它改成一个列表。像这样：

 $ :List of 2
 ..$ : chr "62"
 ..$ :List of 2
 .. ..$ : chr "620"
 .. ..$ : List of 2
 .. .. ..$ : chr "6201"
 .. .. ..$ : List of 1
 .. .. .. ..$ : chr "62010"

我设法创建了两个两级嵌套列表：

l1 <- lapply(unique(df$variable)), list)
l2 <- unique(lapply(l1, function(x) substr(x, 1,2)))
l3 <- unique(lapply(l1, function(x) substr(x, 1,3)))
l4 <- unique(lapply(l1, function(x) substr(x, 1,4)))
l5 <- unique(lapply(l1, function(x) substr(x, 1,5)))

l23 <- mapply(list, l2, lapply(l2, function(x) l3[substr(l3,1,2) == x]), SIMPLIFY = FALSE)
l45 <- mapply(list, l4, lapply(l4, function(x) l5[substr(l5,1,4) == x]), SIMPLIFY = FALSE)

这产生了以下结果：

 str(l23)
 $ :List of 2
 ..$ : chr "62"
 ..$ :List of 1
 .. ..$ : chr "620"

和

str(l45)
$ :List of 2
..$ : chr "6201"
..$ :List of 1
.. ..$ : chr "62010"

有关如何组合这两个列表的任何见解？或者也许如何以一种完全不同的方式去做呢？

修改添加了dput：

dput(l1)
list(list("62010"), list("79110"), list("69202"), list("96040"), 
list("90010"), list("59200"), list("43320"), list("90020"), 
list("46220"), list("90030"), list("70220"), list("86909"), 
list("58110"), list("82990"), list("45110"), list("45201"), 
list("68203"), list("46720"), list("46510"), list("95290"), 
list("85510"), list("68204"), list("41200"), list("74900"), 
list("59120"), list("13921"), list("96090"), list("74102"), 
list("96022"), list("70210"))

dput(l23)
list(list("62", list("620")), list("79", list("791", "799")), 
list("69", list("692", "691")), list("96", list("960")), 
list("90", list("900")), list("59", list("592", "591")), 
list("43", list("433", "432", "439", "431")), list("46", 
    list("462", "467", "465", "463", "464", "461", "466")), 
list("70", list("702")), list("86", list("869", "862")), 
list("58", list("581", "582")), list("82", list("829", "821", 
    "822", "823")), list("45", list("451", "452", "453")), 
list("68", list("682", "683")), list("95", list("952")), 
list("85", list("855", "856", "851", "854", "853")), list(
    "41", list("412", "411")), list("74", list("749", "741", 
    "742", "743")), list("13", list("139")), list("47", list(
    "479", "475", "472", "476", "477", "471", "474")), list(
    "88", list("889", "881")), list("73", list("731")), list(
    "71", list("711", "712")), list("66", list("661")), list(
    "49", list("494", "493")), list("32", list("329", "324", 
    "325")), list("63", list("631")), list("10", list("107", 
    "108")), list("93", list("931", "932")), list("81", list(
    "812", "813")))

dput(l45)
list(list("6201", list("62010")), list("7911", list("79110")), 
list("6920", list("69202", "69201")), list("9604", list("96040")), 
list("9001", list("90010")), list("5920", list("59200")), 
list("4332", list("43320")), list("9002", list("90020")), 
list("4622", list("46220")), list("9003", list("90030")), 
list("7022", list("70220")), list("8690", list("86909", "86905", 
    "86901")), list("5811", list("58110")), list("8299", 
    list("82990")), list("4511", list("45110")), list("4520", 
    list("45201", "45203")), list("6820", list("68203", "68204", 
    "68201", "68202", "68209")), list("4672", list("46720")), 
list("4651", list("46510")), list("9529", list("95290")), 
list("8551", list("85510")), list("4120", list("41200")), 
list("7490", list("74900")), list("5912", list("59120")), 
list("1392", list("13921")), list("9609", list("96090")), 
list("7410", list("74102", "74101", "74103")), list("9602", 
    list("96022", "96021")), list("7021", list("70210")), 
list("4791", list("47919", "47912", "47911", "47916", "47914")))

这是我的第一个问题，如果我没有澄清任何内容，请原谅。

修改因此，为了澄清数字根不是唯一的，几个节点将共享一个父节点。以“90010”和“90020”为例。它们既可以在“90”的父列表中组织，也可以在“900”的子列表中组织，但是然后分成“9001”和“9002”。我添加了一个更大的输入来举例说明。不幸的是，先前和较短的输出并未表明这可能发生。道歉。

Answer 1

这是我认为给你想要的一种方式。不知道每个字符串可以有多长，我把它递归。基本上to_sublist需要string_list，即l1的{{1}}元素之一，并且从底部开始制作层次结构。如果字符串长于2，则删除一个字符并将其放一级，然后调用自身继续该过程。然后，我们list("62010)可以lapply并获得所需的结果。

l1

由reprex package（v0.2.0）创建于2018-06-07。

-------探索--------

l1 <- list(list("62010"), list("79110"), list("69202"), list("96040"), list("90010"), list("59200"))

to_sublist <- function(string_list){
  string <- string_list[[1]]

  if (nchar(string) == 2){
    return(string_list)
  } else {
    substring <- substr(string, 1, nchar(string) - 1)
    sublist <- list(substring, string_list)
    return(to_sublist(sublist))
  }
}

l_out <- lapply(l1, to_sublist)
str(l_out[1:2])
#> List of 2
#>  $ :List of 2
#>   ..$ : chr "62"
#>   ..$ :List of 2
#>   .. ..$ : chr "620"
#>   .. ..$ :List of 2
#>   .. .. ..$ : chr "6201"
#>   .. .. ..$ :List of 1
#>   .. .. .. ..$ : chr "62010"
#>  $ :List of 2
#>   ..$ : chr "79"
#>   ..$ :List of 2
#>   .. ..$ : chr "791"
#>   .. ..$ :List of 2
#>   .. .. ..$ : chr "7911"
#>   .. .. ..$ :List of 1
#>   .. .. .. ..$ : chr "79110"

由reprex package（v0.2.0）创建于2018-06-07。

Answer 2

我确信您可以通过几种不同的方式解决问题。事实上，它似乎与suffix array密切相关，但在您的情况下，它似乎是一个前缀数组，并不包括空（＆＃39; $＆＃39;）或单身人士（在你的情况下，第一个角色）。

以下是仅使用String R：

的解决方案提案

base

申请数据中的列：

pref_list <- function(str) {
    pl <- function(str, l, n) {
        if (n == 2)
            return(list(substr(str, 1, n), l))
        pl(str, list(substr(str, 1, n), l), n - 1)
    }
    pl(str, list(str), nchar(str) - 1)
}

编辑：我刚刚在评论中读到您确实想要使用res <- lapply(df$variable, pref_list) str(res[[1]]) #>List of 2 #> $ : chr "62" #> $ :List of 2 #> ..$ : chr "620" #> ..$ :List of 2 #> .. ..$ : chr "6201" #> .. ..$ :List of 1 #> .. .. ..$ : chr "62010"作为输入。我建议您直接使用l1，但如果您愿意，可以使用df$variable：

l1

组合两个嵌套列表R

2 个答案: