我实际上是按照“ R中的文本挖掘:整齐的方法”一书第6章中介绍的步骤进行操作。参见:https://www.tidytextmining.com/topicmodeling.html
newbranch2
在终端中给我以下错误:
newbranch*
与此同时,我应该得到的是:
#import libraries
library(topicmodels)
library(tidytext)
#access dataset
data("AssociatedPress")
# set a seed so that the output of the model is predictable
ap_lda <- LDA(AssociatedPress, k = 2, control = list(seed = 1234))
#tidy model object
ap_topics <- tidy(ap_lda, matrix = "beta")
为什么我看到此错误而不是期望的结果?
答案 0 :(得分:1)
您不是第一个遇到此问题的人,但很难复制。实际上,我个人从未能够重现该错误。但是,我知道这是一个真正的问题,因为……如果您希望看到其他人也在挣扎,请查看here或here或here或{{3 }}。
据我所知,这很可能是topicmodels软件包中的一个错误,与S4注册有关。您可以通过在会话和here之间不保存.RData
来避免遇到这种情况。
答案 1 :(得分:0)
您需要首先整理AssociatedPress数据。像这样:
#if(!require("topicmodels")) install.packages("topicmodels")
#install.packages("topicmodels")
library(topicmodels)
data("AssociatedPress",package="topicmodels")
AssociatedPress
#Getting the Terms
terms<-Terms(AssociatedPress)
head(terms)
#tidyig with the tidy function
ap_tidy<-tidy(AssociatedPress)
然后:
ap_lda<-LDA(AssociatedPress,k=2,control=list(seed=1234))
ap_topics<-tidy(ap_lda,matrix="beta")
head(ap_topics)
哪个给:
topic term beta
<int> <chr> <dbl>
1 1 aaron 1.69e-12
2 2 aaron 3.90e- 5
3 1 abandon 2.65e- 5
4 2 abandon 3.99e- 5
5 1 abandoned 1.39e- 4
6 2 abandoned 5.88e- 5