我正在尝试为输入文本找到Sentiment。这个测试是一个垃圾句子,当我试图找到情感时,解析句子的注释大约需要30秒。对于普通文本,它只需不到一秒钟。如果我需要处理大约数百万个数据,它会增加处理时间。任何解决方案。
library(dplyr)
site.df = data.frame(siteKey = paste0("site",1:4), siteCode = runif(4,9,28))
site.df %>%
rowwise %>%
do(print(.$siteCode))
对于NLP情绪计算,我必须解析数据,我认为这是它花费时间的原因。
感谢
答案 0 :(得分:3)
是的,标准PCFG解析器(默认情况下运行的解析器没有指定任何其他选项)会阻塞这种长的无意义数据。使用shift-reduce constituency parser可能会有更好的运气,这比PCFG快得多,而且差不多准确。