我正在尝试学习整洁的文本。只要我使用软件包(例如janeaustenr),就可以在tidytext网站上关注这些示例。但是,我的大部分数据都是语料库中的文本文件。我可以在tidytext网站上重现tm到tidytext转换示例,以进行情感分析(ap_sentiments)。但是,我在了解整理文本数据的结构时遇到了麻烦。例如,奥斯丁小说通过“书”存储在奥斯丁包装中。但是,对于我的tm数据,将向量称为book的等效方式是什么?这是我的数据的具体示例:
'cname <- file.path(".", "greencomments" , "all")
运行tm预处理后,我便可以成功使用tidytext:
practice <- tidy(tdm)
practice
partysentiments <- practice %>%
inner_join(get_sentiments("bing"), by = c(term = "word"))
partysentiments
# A tibble: 170 x 4
term document count sentiment
<chr> <chr> <dbl> <chr>
1 benefit 1 1.00 positive
2 best 1 2.00 positive
3 better 1 7.00 positive
4 cheaper 1 1.00 positive
5 clean 1 24.0 positive
7 clear 1 1.00 positive
8 concern 1 2.00 negative
9 cure 1 1.00 positive
10 destroy 1 3.00 negative
但是,我无法在整齐的文本中复制单词频率的简单ggplots。由于我的数据/语料库在数据帧中没有“书”的列,因此代码(以及大部分整理文本功能)将不起作用。
这里是问题的一个例子。效果很好:
practice %>%
count(term, sort = TRUE)
# A tibble: 989 x 2
term n
<chr> <int>
1 activ 3
2 air 3
3 altern 3
但是,我该如何安排tm语料库以匹配奥斯丁包中书籍的结构? “文档”等同于“书”吗?我在语料库的文件夹中有文本文件。我试图在代码中替换它,但是它不起作用。也许我需要重命名?提前致歉-我不是程序员。