我得到了这样的数据(简化):
library(quanteda)
示例数据
myText <- c("ala ma kotka", "kasia ma pieska")
myDF <- data.frame(myText)
myDF$myText <- as.character(myDF$myText)
标记化
tokens <- tokens(myDF$myText, what = "word",
remove_numbers = TRUE, remove_punct = TRUE,
remove_symbols = TRUE, remove_hyphens = TRUE)
源于我自己的数据 样本词典
Origin <- c("kot", "pies")
Word <- c("kotek","piesek")
myDict <- data.frame(Origin, Word)
myDict$Origin <- as.character(myDict$Origin)
myDict$Word <- as.character(myDict$Word)
我得到了什么
tokens[1]
[1] "Ala" "ma" "kotka"
我想得到什么
tokens[1]
[1] "Ala" "ma" "kot"
tokens[2]
[1] "Kasia" "ma" "pies"
答案 0 :(得分:3)
类似的问题已经回答here,但由于该问题的标题(以及接受的答案)没有明确的链接,我将向您展示这是如何具体适用于您的问题的。我还将在下面提供其他详细信息,以使用通配符作为后缀来实现您自己的基本词干分析器。
最简单的方法是使用自定义词典,其中键是词干,值是变形词。然后,您可以将tokens_lookup()
与exclusive = FALSE, capkeys = FALSE
选项一起使用,将变形的术语转换为词干。
请注意,我稍微修改了您的示例以简化它,并纠正我认为错误的内容。
library("quanteda")
packageVersion("quanteda")
[1] ‘0.99.9’
# no need for the data.frame() call
myText <- c("ala ma kotka", "kasia ma pieska")
toks <- tokens(myText,
remove_numbers = TRUE, remove_punct = TRUE,
remove_symbols = TRUE, remove_hyphens = TRUE)
Origin <- c("kot", "kot", "pies", "pies")
Word <- c("kotek", "kotka", "piesek", "pieska")
然后我们创建字典,如下所示。从quanteda v0.99.9开始,具有相同键的值将被合并,因此您可以使用一个列表将多个不同的变形形式映射到相同的键。在这里,我必须添加新值,因为在Word
示例中未找到原始myText
向量中的变形形式。
temp_list <- as.list(Word)
names(temp_list) <- Origin
(stem_dict <- dictionary(temp_list))
## Dictionary object with 2 key entries.
## - [kot]:
## - kotek, kotka
## - [pies]:
## - piesek, pieska
然后tokens_lookup()
发挥其魔力。
tokens_lookup(toks, dictionary = stem_dict, exclusive = FALSE, capkeys = FALSE)
## tokens from 2 documents.
## text1 :
## [1] "ala" "ma" "kot"
##
## text2 :
## [1] "kasia" "ma" "pies"
另一种方法是使用&#34; glob&#34;来实现你自己的词干分析器。通配符表示Origin
向量的所有后缀,(这里至少)产生相同的结果:
temp_list <- lapply(unique(Origin), paste0, "*")
names(temp_list) <- unique(Origin)
(stem_dict2 <- dictionary(temp_list))
# Dictionary object with 2 key entries.
# - [kot]:
# - kot*
# - [pies]:
# - pies*
tokens_lookup(toks, dictionary = stem_dict, exclusive = FALSE, capkeys = FALSE)
## tokens from 2 documents.
## text1 :
## [1] "ala" "ma" "kot"
##
## text2 :
## [1] "kasia" "ma" "pies"