安装包并制作计时功能

Question

使用 qdap 包来确定特定应用程序的每条评论评论的情绪。我从CSV文件中读取了评论评论，并将其传递给qdap的极性函数。一切正常，我得到所有评论评论的极性，但问题是计算所有句子的极性需要7-8秒（CSV文件中存在的句子总数是779）。我正在粘贴下面的代码。

  temp_csv <- filePath()
  attach(temp_csv)
  text_data <- temp_csv[,c('Content')]
  print(Sys.time())
  polterms <- list(neg=c('wtf'))
  POLKEY <- sentiment_frame(positives=c(positive.words),negatives=c(polterms[[1]],negative.words))     
  polarity <- polarity(sentences, polarity.frame = POLKEY) 
  print(Sys.time())

所花费的时间如下：

[1]＆＃34; 2016-04-12 16:43:01 IST＆＃34;

[1]＆＃34; 2016-04-12 16:43:09 IST＆＃34;

如果我做错了什么，有人可以告诉我吗？如何提高性能？

Answer 1

我是 qdap 的作者。 polarity函数是为更小的数据集设计的。随着我的角色转移，我开始使用更大的数据集。我需要快速准确（这两件事情彼此相反），并且已经开发了一个脱离包sentimentr。该算法经过优化，比 qdap 的极性更快，更准确。

现在，你有5个基于字典（或基于训练的算法）接近情绪检测。每个都有它的缺点（ - ）和加号（+），在某些情况下很有用。

qdap +; -slow
syuzhet +; +快; +伟大的策划; - 非文献使用的准确性
sentimentr +快; +更高的准确性; -GitHub只
stansent (stanford port) +最准确; -slower
tm.plugin.sentiment - 在CRAN上存档; - 我无法让它轻松工作

我在下面的代码中显示了上面4个选项的样本数据的时间测试。

安装包并制作计时功能

我使用pacman，因为它允许读者只运行代码;虽然你可以用install.packages＆amp;替换library来电。

if (!require("pacman")) install.packages("pacman")
pacman::p_load(qdap, syuzhet, dplyr)
pacman::p_load_current_gh(c("trinker/stansent", "trinker/sentimentr"))

pres_debates2012 #nrow = 2912

tic <- function (pos = 1, envir = as.environment(pos)){
    assign(".tic", Sys.time(), pos = pos, envir = envir)
    Sys.time()
}

toc <- function (pos = 1, envir = as.environment(pos)) {
    difftime(Sys.time(), get(".tic", , pos = pos, envir = envir))
}

id <- 1:2912

计时

## qdap
tic()
qdap_sent <- pres_debates2012 %>%
    with(qdap::polarity(dialogue, id))
toc() # Time difference of 18.14443 secs


## sentimentr
tic()
sentimentr_sent <- pres_debates2012 %>%
    with(sentiment(dialogue, id))
toc() # Time difference of 1.705685 secs


## syuzhet
tic()
syuzhet_sent <- pres_debates2012 %>%
    with(get_sentiment(dialogue, method="bing"))
toc() # Time difference of 1.183647 secs


## stanford
tic()
stanford_sent <- pres_debates2012 %>%
    with(sentiment_stanford(dialogue))
toc() # Time difference of 6.724482 mins

有关时间和准确度的更多信息，请参阅我的sentimentr README.md，如果有用，请为回购邮件加注。下面的viz从README中捕获了一个测试：

使用qdap的评论评论的感伤分析很慢

1 个答案:

安装包并制作计时功能

计时