我可以计算并列出在Excel文档中使用过多少次单词吗?

时间:2019-12-11 21:02:00

标签: r excel text tm corpus

我正在研究票务系统中的一些文本数据。我正在从票证中提取较长的文本字段,需要分析正在使用的单词和使用最多的单词。但是我需要它列出所有单词。

文件格式为Excel,我已获取文件并使用tm,我对数据进行了一些编辑,并删除了一些停用词和其他对我要查找的数据并不重要的词。我已经把它变成了一个语料库。

当我执行以下代码时,它可以满足我的需要,但实际上并不能给我所有的含义。我知道这将是一长串,但这很好。

dtm <- DocumentTermMatrix(hardwareCN.Clean)
dtmDataFrame1 <- as.data.frame(inspect(dtm))
colSums(dtmDataFrame1)

这仅给我约10个单词,但我知道还有很多不止这些。然后,我还需要能够导出此文件以共享。

谢谢

0 个答案:

没有答案