Question

我正在尝试对R中的PDF文档进行简单的情感分析。这是我的代码。

library(dplyr)
library(stringr)
library(pdftools)
library(tidytext)

text <- pdf_text("born2017.pdf")

text_df <- data_frame(line = 1:4, text = text)

text_df <- text_df %>%
  unnest_tokens(word, text)

text_df %>%
  count(word, sort = TRUE)

bing_word_counts <- text_df %>%
  inner_join(get_sentiments("bing")) %>%
  count(word, sentiment, sort = TRUE) %>%
  ungroup()


bing_word_counts

哪个给我一张这样的桌子

A tibble: 115 x 3
   word        sentiment     n
   <chr>       <chr>     <int>
 1 promises    positive    176
 2 promise     positive    115
 3 significant positive     37
 4 regression  negative     30
...with 105 more rows

我现在唯一需要做的就是获取肯定词和否定词的频率，而这似乎是我做不到的。我的目标是这样-

Sentiment  Frequency
Positive    865
Negative    564

换句话说，文档中有多少个单词是肯定的，而有多少个单词是-否定的。很抱歉，这似乎是一个简单的问题，但是我是R的初学者，我感到有些失落。我有我问过的合理方式。

计算R中的肯定词

0 个答案: