词典中的词典组匹配

时间:2016-03-03 20:04:48

标签: r

我有这样的词汇数据:

C#
C++
Windows 7
Windows Azure
Programming
Programming C

我想将它们分为更一般的类别。是否有任何选项可以将软件工程术语匹配为R中更抽象的组?

示例:

C++
C#
Programming C

将它们列为C

与windows相同。

1 个答案:

答案 0 :(得分:0)

这是使用我维护的一些GitHub软件包的一种方法......但是你需要调整它以使其更具普遍性。

dat <- readLines(n = 6)
C#
C++
Windows 7
Windows Azure
Programming
Programming C

if (!require("pacman")) install.packages("pacman")
pacman::p_load_gh(
    "trinker/textshape", 
    "trinker/gofastr", 
    "trinker/termco",    
    "trinker/hclustext"
)

ds <- data_store(gsub("[^[:alpha:] ]", " ", dat), stopwords = c("programming", "program"))
myfit <- hierarchical_cluster(ds)
plot(myfit, 2)
ca <- assign_cluster(myfit, k = 2)

split(dat[as.numeric(names(ca))], ca)

## $`1`
## [1] "C#"            "C++"           "Programming C"
## 
## $`2`
## [1] "Windows 7"     "Windows Azure"