tm到tidytext转换

时间:2018-11-16 17:57:00

标签: tm tidytext

我正在尝试学习整洁的文本。只要我使用软件包(例如janeaustenr),就可以在tidytext网站上关注这些示例。但是,我的大部分数据都是语料库中的文本文件。我可以在tidytext网站上重现tm到tidytext转换示例,以进行情感分析(ap_sentiments)。但是,我在了解整理文本数据的结构时遇到了麻烦。例如,奥斯丁小说通过“书”存储在奥斯丁包装中。但是,对于我的tm数据,将向量称为book的等效方式是什么?这是我的数据的具体示例:

'cname <- file.path(".", "greencomments" , "all")

运行tm预处理后,我便可以成功使用tidytext:

practice <- tidy(tdm)
practice
partysentiments <- practice %>%
inner_join(get_sentiments("bing"), by = c(term = "word"))
partysentiments

# A tibble: 170 x 4
term    document count sentiment
<chr>   <chr>    <dbl> <chr>    
1 benefit 1         1.00 positive 
2 best    1         2.00 positive 
3 better  1         7.00 positive 
4 cheaper 1         1.00 positive 
5 clean   1        24.0  positive 
7 clear   1         1.00 positive 
8 concern 1         2.00 negative 
9 cure    1         1.00 positive 
10 destroy 1         3.00 negative 

但是,我无法在整齐的文本中复制单词频率的简单ggplots。由于我的数据/语料库在数据帧中没有“书”的列,因此代码(以及大部分整理文本功能)将不起作用。

这里是问题的一个例子。效果很好:

practice %>%
count(term, sort = TRUE)

# A tibble: 989 x 2
term        n
<chr>   <int>
1 activ       3
2 air         3
3 altern      3

但是,我该如何安排tm语料库以匹配奥斯丁包中书籍的结构? “文档”等同于“书”吗?我在语料库的文件夹中有文本文件。我试图在代码中替换它,但是它不起作用。也许我需要重命名?提前致歉-我不是程序员。

0 个答案:

没有答案