我想对几个银行帐户说明进行文字处理。我的第一步是获得描述中使用最多的单词的排名。
所以假设我有一个如下所示的数据框:
a b
1 1 House expenses
2 2 Office furniture bought
3 3 Office supplies ordered
然后我想创建一个使用单词的排名。像这样:
Name Times
1. Office 2
2. Furniture 1
等等...
有关如何快速概述说明中最常用词语的任何想法?
答案 0 :(得分:2)
另一种方法是使用tm包。 您可以创建语料库:
colSums(dtmDataFrame)
默认情况下,它使用“weightTf”生成术语频率tf。我将文档术语矩阵转换为数据帧。 现在你拥有的是每个文档的行,每个术语的列,每个术语的术语频率,你可以直接创建排名,为每列添加所有值。
groups <- read.table(header = TRUE, stringsAsFactors = FALSE,
text="SpName GroupName
1 Sp1 Grp1
2 Sp2 Grp1
3 Sp3 Grp2
4 Sp4 Grp3
5 Sp5 Grp3")
diets <- read.table(header = TRUE,
text="Sp1 Sp2 Sp3 Sp4 Sp5
1 0.4 0.4 0.1 0.2 0.0
2 1.4 0.1 0.1 0.3 3.4
3 0.5 0.6 0.1 0.4 0.0")
无论如何,你也可以对它进行排序。使用tm的好处是你可以轻松过滤掉单词,用一堆东西来处理它们,比如停用单词,删除标点符号,删除,删除稀疏单词以备不时之需。
答案 1 :(得分:0)
while CONDITION ; do
ACTION
done