为什么LDA预测不正确

时间:2019-03-17 00:23:34

标签: r nlp lda topic-modeling topicmodels

步骤1

我正在使用R和“ topicmodels”包从4.5k文档语料库构建LDA模型。我执行了通常的预处理步骤(停用词,切低/高词频,词形还原),最后得到了一个我很满意的100个主题模型。实际上,这是满足我需求的几乎完美的模型。

justlda <- LDA(k=100, x=dtm_lemma, method="Gibbs", control=control_list_gibbs)

步骤2

然后我使用与上述相同的精确过程进行预处理,以处理新的(模型看不见的)300个文档语料库,然后将其转换为文档项矩阵,然后使用同一包的“后验”函数进行预测有关新数据的主题。 该语料库来自同一作者,与训练集非常相似。

我的问题

我得到的预测(后验概率)完全错误。 这是我用来获取后验的代码:

topics = posterior(justlda, dtm_lemma, control = control_list_gibbs)$topics
  • justlda是在步骤1中使用整个语料库构建的模型。
  • dtm_lemma是新数据的预处理文档项矩阵。
  • 控制是lda参数(两者相同)。

我觉得不仅预测错误,而且主题权重也很低。没有什么是主导话题。 (对于这个100个主题的模型,大多数主题的结果为0.08,而我很幸运得到了0.20的权重,这甚至不相关...)

我在NLP / LDA和R语言方面的经验不足一年。我觉得我在某个地方可能犯了一个非常业余的错误,可以解释错误的预测?

这种结果正常吗?我可能做错了什么?

1 个答案:

答案 0 :(得分:1)

我不是100%知道“错”是什么意思。我进行了快速测试,以了解posterior是否适用于新数据。首先,我运行一个包含AssociatedPress数据集的所有文档的模型:

library(topicmodels)
data("AssociatedPress")
ap_lda <- LDA(AssociatedPress, k = 5, control = list(seed = 1234))

从您的问题来看,我怀疑您正在此处查看每个文档的最可能主题。为了保持可比性,我基于一些整洁的软件包,在这里建立了自己的发现方式:

library(tidytext)
library(dplyr)
library(tidyr)
ap_documents <- tidy(ap_lda, matrix = "gamma")
ap_documents %>% 
  group_by(document) %>% 
  top_n(1, gamma) %>% # keep only most likely topic
  arrange(document)
# A tibble: 2,246 x 3
# Groups:   document [2,246]
   document topic gamma
      <int> <int> <dbl>
 1        1     4 0.999
 2        2     2 0.529
 3        3     4 0.999
 4        4     4 0.518
 5        5     4 0.995
 6        6     2 0.971
 7        7     1 0.728
 8        8     2 0.941
 9        9     4 0.477
10       10     5 0.500
# ... with 2,236 more rows

现在,我再次运行相同的LDA,但保留前10个文档:

AssociatedPress_train <- AssociatedPress[11:nrow(AssociatedPress), ]
AssociatedPress_test <- AssociatedPress[1:10, ]

ap_lda <- LDA(AssociatedPress_train, k = 5, control = list(seed = 1234))

我使用posterior来获取每个文档的伽玛值,并再次保持最可能的值:

posterior(object = ap_lda, newdata = AssociatedPress_test)$topics %>%
  as_tibble() %>% 
  mutate(document = seq_len(nrow(.))) %>% 
  gather(topic, gamma, -document) %>% 
  group_by(document) %>% 
  top_n(1, gamma) %>% # keep only most probable topic
  arrange(document)
# A tibble: 10 x 3
# Groups:   document [10]
   document topic gamma
      <int> <chr> <dbl>
 1        1 4     0.898
 2        2 2     0.497
 3        3 4     0.896
 4        4 4     0.468
 5        5 4     0.870
 6        6 2     0.754
 7        7 1     0.509
 8        8 2     0.913
 9        9 4     0.476
10       10 2     0.399

除文档10之外的所有文档都具有与以前相同的最可能主题。所以一切似乎都正常!因此,您的代码不会立即出现问题。

我尚未测试的一件事是,如果训练和测试集的DTM具有不同的列,将会发生什么。我怀疑那是个问题。

这是一个如何处理该问题的简单示例:

text1 <- tibble(doc = 1, word = LETTERS[1:10])
text2 <- tibble(doc = 1, word = LETTERS[2:11])
dtm1 <- text1 %>%
  count(doc, word) %>%
  arrange(word) %>%
  cast_dtm(doc, word, n)

dtm2 <- text2 %>%
  count(doc, word) %>%
  arrange(word) %>%
  cast_dtm(doc, word, n)

all.equal(dtm1$dimnames$Terms, dtm2$dimnames$Terms)
[1] "10 string mismatches"

我制作了两个DTM,其中第二个DTM有一个额外的任期,而另一个则没有一个。因此,暗号是不同的。通过将DTM重新整理为整齐的格式,删除多余的词并添加缺失的词,然后再次投射DTM,我们可以使它们相等:

dtm2_clean <- tidy(dtm2) %>% 
  filter(term %in% dtm1$dimnames$Terms) %>% 
  rbind(tibble(document = 1, 
               term = dtm1$dimnames$Terms, # adding term but no counts
               count = 0)) %>% 
  arrange(term) %>% 
  cast_dtm(document, term, count)

all.equal(dtm1$dimnames$Terms, dtm2_clean$dimnames$Terms)
[1] TRUE

您现在可以将其用作后验的新数据。