Question

我想对几个银行帐户说明进行文字处理。我的第一步是获得描述中使用最多的单词的排名。

所以假设我有一个如下所示的数据框：

    a                       b
    1 1          House expenses
    2 2 Office furniture bought
    3 3 Office supplies ordered

然后我想创建一个使用单词的排名。像这样：

    Name      Times
    1. Office   2
    2. Furniture 1

等等...

有关如何快速概述说明中最常用词语的任何想法？

Answer 1

另一种方法是使用tm包。您可以创建语料库：

colSums(dtmDataFrame)

默认情况下，它使用“weightTf”生成术语频率tf。我将文档术语矩阵转换为数据帧。现在你拥有的是每个文档的行，每个术语的列，每个术语的术语频率，你可以直接创建排名，为每列添加所有值。

groups <- read.table(header = TRUE, stringsAsFactors = FALSE,
text="SpName    GroupName
1   Sp1       Grp1
2   Sp2       Grp1
3   Sp3       Grp2
4   Sp4       Grp3
5   Sp5       Grp3")

diets <- read.table(header = TRUE,
text="Sp1  Sp2  Sp3  Sp4  Sp5
1 0.4  0.4  0.1  0.2  0.0
2 1.4  0.1  0.1  0.3  3.4
3 0.5  0.6  0.1  0.4  0.0")

无论如何，你也可以对它进行排序。使用tm的好处是你可以轻松过滤掉单词，用一堆东西来处理它们，比如停用单词，删除标点符号，删除，删除稀疏单词以备不时之需。

Answer 2

while CONDITION ; do
    ACTION
done

计算使用特定单词的次数

2 个答案: