计算使用特定单词的次数

时间:2015-08-06 11:41:13

标签: r text-mining

我想对几个银行帐户说明进行文字处理。我的第一步是获得描述中使用最多的单词的排名。

所以假设我有一个如下所示的数据框:

    a                       b
    1 1          House expenses
    2 2 Office furniture bought
    3 3 Office supplies ordered

然后我想创建一个使用单词的排名。像这样:

    Name      Times
    1. Office   2
    2. Furniture 1

等等...

有关如何快速概述说明中最常用词语的任何想法?

2 个答案:

答案 0 :(得分:2)

另一种方法是使用tm包。 您可以创建语料库:

colSums(dtmDataFrame)

默认情况下,它使用“weightTf”生成术语频率tf。我将文档术语矩阵转换为数据帧。  现在你拥有的是每个文档的行,每个术语的列,每个术语的术语频率,你可以直接创建排名,为每列添加所有值。

groups <- read.table(header = TRUE, stringsAsFactors = FALSE,
text="SpName    GroupName
1   Sp1       Grp1
2   Sp2       Grp1
3   Sp3       Grp2
4   Sp4       Grp3
5   Sp5       Grp3")

diets <- read.table(header = TRUE,
text="Sp1  Sp2  Sp3  Sp4  Sp5
1 0.4  0.4  0.1  0.2  0.0
2 1.4  0.1  0.1  0.3  3.4
3 0.5  0.6  0.1  0.4  0.0")

无论如何,你也可以对它进行排序。使用tm的好处是你可以轻松过滤掉单词,用一堆东西来处理它们,比如停用单词,删除标点符号,删除,删除稀疏单词以备不时之需。

答案 1 :(得分:0)

while CONDITION ; do
    ACTION
done