Question

我正在尝试学习整洁的文本。只要我使用软件包（例如janeaustenr），就可以在tidytext网站上关注这些示例。但是，我的大部分数据都是语料库中的文本文件。我可以在tidytext网站上重现tm到tidytext转换示例，以进行情感分析（ap_sentiments）。但是，我在了解整理文本数据的结构时遇到了麻烦。例如，奥斯丁小说通过“书”存储在奥斯丁包装中。但是，对于我的tm数据，将向量称为book的等效方式是什么？这是我的数据的具体示例：

'cname <- file.path(".", "greencomments" , "all")

运行tm预处理后，我便可以成功使用tidytext：

practice <- tidy(tdm)
practice
partysentiments <- practice %>%
inner_join(get_sentiments("bing"), by = c(term = "word"))
partysentiments

# A tibble: 170 x 4
term    document count sentiment
<chr>   <chr>    <dbl> <chr>    
1 benefit 1         1.00 positive 
2 best    1         2.00 positive 
3 better  1         7.00 positive 
4 cheaper 1         1.00 positive 
5 clean   1        24.0  positive 
7 clear   1         1.00 positive 
8 concern 1         2.00 negative 
9 cure    1         1.00 positive 
10 destroy 1         3.00 negative

但是，我无法在整齐的文本中复制单词频率的简单ggplots。由于我的数据/语料库在数据帧中没有“书”的列，因此代码（以及大部分整理文本功能）将不起作用。

这里是问题的一个例子。效果很好：

practice %>%
count(term, sort = TRUE)

# A tibble: 989 x 2
term        n
<chr>   <int>
1 activ       3
2 air         3
3 altern      3

但是，我该如何安排tm语料库以匹配奥斯丁包中书籍的结构？ “文档”等同于“书”吗？我在语料库的文件夹中有文本文件。我试图在代码中替换它，但是它不起作用。也许我需要重命名？提前致歉-我不是程序员。

tm到tidytext转换

0 个答案: