鲜花晚安,我遇到了一个有趣的难题,需要帮助。 (请忍受,这很难解释)
我正在做一些文本挖掘,使用tm lib创建,清理,文档术语矩阵等语料库,一切都很好,并且一切运转良好(一直到现在)。这就是我想做的:
示例代码:
dtm <- TermDocumentMatrix(corpus)#the corpus was created from my raw .csv
#file
m <- as.matrix(dtm)
v <- sort(rowSums(m),decreasing = T)
d <- data.frame(word = names(v),freq=v)
head(d, 20)
wordf <- d[1:20,]
wordf
从结构的角度来看,wordf看起来像这样:
字|频率
密码| 13788
让我们进入数据集2的细节。数据集2有3列(下面是一个小示例:
行号|字|类别
1 |密码| Request-Access-Password_Reset
(抱歉,格式化对我来说效果不佳)
我想做的就是这个。从wrdf列中提取单词,在数据集2“ word列”中搜索,如果匹配,则拉回category列中列出的值,然后将所有内容写入新的数据框中。
最终,我希望它可以通过机器学习和培训等方式自动运行,但是目前,它是手动的,直到我有足够的数据来实际训练算法为止。所以,无聊的人,我希望我能很好地解释自己,如果不能的话,我很抱歉,我知道很多人讨厌这样的一般性问题,没有更多细节,但是我希望我能理解我的意思。请帮忙,任何可以协助的人都将获得+10工藤积分。