我正在尝试根据另一个变量的字符串值创建一个虚拟变量,新的虚拟变量包含复合词。我的问题是如何绕过这个,所以它只包括引号中的单词。
语法示例“toke”= dataframe和“word”=当我运行语法时它是单个单词的标记化列,它在新变量(toke2$product
)中将“product”正确编码为1但它也将编码productdesign as 1.我希望它只将产品编码为1,将productdesign编码为0。
tags <- c("product", "productdesign", "electronics")
line <- c("Bears", "Orcids", "Oranges")
toke = data.frame(toke, tags)
toke
toke2 <- toke%>% mutate(
product = ifelse(str_detect(word, "product"), "1", "0"))