我有这样的词汇数据:
C#
C++
Windows 7
Windows Azure
Programming
Programming C
我想将它们分为更一般的类别。是否有任何选项可以将软件工程术语匹配为R中更抽象的组?
示例:
C++
C#
Programming C
将它们列为C
与windows相同。
答案 0 :(得分:0)
这是使用我维护的一些GitHub软件包的一种方法......但是你需要调整它以使其更具普遍性。
dat <- readLines(n = 6)
C#
C++
Windows 7
Windows Azure
Programming
Programming C
if (!require("pacman")) install.packages("pacman")
pacman::p_load_gh(
"trinker/textshape",
"trinker/gofastr",
"trinker/termco",
"trinker/hclustext"
)
ds <- data_store(gsub("[^[:alpha:] ]", " ", dat), stopwords = c("programming", "program"))
myfit <- hierarchical_cluster(ds)
plot(myfit, 2)
ca <- assign_cluster(myfit, k = 2)
split(dat[as.numeric(names(ca))], ca)
## $`1`
## [1] "C#" "C++" "Programming C"
##
## $`2`
## [1] "Windows 7" "Windows Azure"