R

时间:2018-08-16 03:03:17

标签: r dataframe lookup

鲜花晚安,我遇到了一个有趣的难题,需要帮助。 (请忍受,这很难解释)

我正在做一些文本挖掘,使用tm lib创建,清理,文档术语矩阵等语料库,一切都很好,并且一切运转良好(一直到现在)。这就是我想做的:

  1. 使用我在data.frame中最常用的词或三个词的“短语”(这些是我们在数据中最常用的词和短语),我想像查找列表一样创建或缺少更好术语的“词典”,这些术语基本上只能采用其中一个短语,请在另一个数据集中查找是否匹配,如果是,请给我第二个数据集中的值/描述。

示例代码:

dtm <- TermDocumentMatrix(corpus)#the corpus was created from my raw .csv 
#file
m <- as.matrix(dtm)
v <- sort(rowSums(m),decreasing = T)
d <- data.frame(word = names(v),freq=v)
head(d, 20)
wordf <- d[1:20,]
wordf
从结构的角度来看,

wordf看起来像这样:

字|频率

密码| 13788

让我们进入数据集2的细节。数据集2有3列(下面是一个小示例:

行号|字|类别

1 |密码| Request-Access-Password_Reset

(抱歉,格式化对我来说效果不佳)

我想做的就是这个。从wrdf列中提取单词,在数据集2“ word列”中搜索,如果匹配,则拉回category列中列出的值,然后将所有内容写入新的数据框中。

最终,我希望它可以通过机器学习和培训等方式自动运行,但是目前,它是手动的,直到我有足够的数据来实际训练算法为止。所以,无聊的人,我希望我能很好地解释自己,如果不能的话,我很抱歉,我知道很多人讨厌这样的一般性问题,没有更多细节,但是我希望我能理解我的意思。请帮忙,任何可以协助的人都将获得+10工藤积分。

0 个答案:

没有答案