我正在尝试对R中的PDF文档进行简单的情感分析。这是我的代码。
library(dplyr)
library(stringr)
library(pdftools)
library(tidytext)
text <- pdf_text("born2017.pdf")
text_df <- data_frame(line = 1:4, text = text)
text_df <- text_df %>%
unnest_tokens(word, text)
text_df %>%
count(word, sort = TRUE)
bing_word_counts <- text_df %>%
inner_join(get_sentiments("bing")) %>%
count(word, sentiment, sort = TRUE) %>%
ungroup()
bing_word_counts
哪个给我一张这样的桌子
A tibble: 115 x 3
word sentiment n
<chr> <chr> <int>
1 promises positive 176
2 promise positive 115
3 significant positive 37
4 regression negative 30
...with 105 more rows
我现在唯一需要做的就是获取肯定词和否定词的频率,而这似乎是我做不到的。我的目标是这样-
Sentiment Frequency
Positive 865
Negative 564
换句话说,文档中有多少个单词是肯定的,而有多少个单词是-否定的。很抱歉,这似乎是一个简单的问题,但是我是R的初学者,我感到有些失落。我有我问过的合理方式。