Question

鲜花晚安，我遇到了一个有趣的难题，需要帮助。（请忍受，这很难解释）

我正在做一些文本挖掘，使用tm lib创建，清理，文档术语矩阵等语料库，一切都很好，并且一切运转良好（一直到现在）。这就是我想做的：

使用我在data.frame中最常用的词或三个词的“短语”（这些是我们在数据中最常用的词和短语），我想像查找列表一样创建或缺少更好术语的“词典”，这些术语基本上只能采用其中一个短语，请在另一个数据集中查找是否匹配，如果是，请给我第二个数据集中的值/描述。

示例代码：

dtm <- TermDocumentMatrix(corpus)#the corpus was created from my raw .csv 
#file
m <- as.matrix(dtm)
v <- sort(rowSums(m),decreasing = T)
d <- data.frame(word = names(v),freq=v)
head(d, 20)
wordf <- d[1:20,]
wordf

从结构的角度来看，

wordf看起来像这样：

字|频率

密码| 13788

让我们进入数据集2的细节。数据集2有3列（下面是一个小示例：

行号|字|类别

1 |密码| Request-Access-Password_Reset

（抱歉，格式化对我来说效果不佳）

我想做的就是这个。从wrdf列中提取单词，在数据集2“ word列”中搜索，如果匹配，则拉回category列中列出的值，然后将所有内容写入新的数据框中。

最终，我希望它可以通过机器学习和培训等方式自动运行，但是目前，它是手动的，直到我有足够的数据来实际训练算法为止。所以，无聊的人，我希望我能很好地解释自己，如果不能的话，我很抱歉，我知道很多人讨厌这样的一般性问题，没有更多细节，但是我希望我能理解我的意思。请帮忙，任何可以协助的人都将获得+10工藤积分。

R

0 个答案: