我有一个新闻文章的数据集,这些新闻文章是根据他们使用术语" euroscepticism"的标准收集的。或" eurosceptic"。我一直在使用lda
包(dfm
内置quanteda
矩阵)来运行主题模型,以便确定这些文章的主要主题;但是,我感兴趣的词语没有出现在任何主题中。因此,我想将这些词语植入模型,我不确定该怎么做。
我看到包topicmodels
允许一个名为seedwords的参数,其中"可以指定为matrix
或simple_triplet_matrix
"的对象类,但没有其他指示。似乎simple_triplet_matrix
只取整数,而不是字符串 - 有人知道我会播下“欧洲怀疑主义”这个词吗?和' eurosceptic'进入模型?
以下是代码的缩写版本:
library("quanteda")
library("lda")
##Load UK texts/create corpus
UKcorp <- corpus(textfile(file="~Michael/DM6/*"))
##Create document feature matrix
UKdfm2 <- dfm(UKcorp, ngrams =1, verbose = TRUE, toLower = TRUE,
removeNumbers = TRUE, removePunct = TRUE, removeSeparators = TRUE,
removeTwitter = FALSE, stem = TRUE, ignoredFeatures =
stopwords(kind="english"), keptFeatures = NULL, language = "english",
thesaurus = NULL, dictionary = NULL, valuetype = "fixed"))
##Convert to lda model
UKlda2 <- convert(UKdfm2, to = "lda")
##run model
UKmod2 <- lda.collapsed.gibbs.sampler(UKlda2$documents, K = 15, UKlda2$vocab,
num.iterations = 1500, alpha = .1,eta = .01, initial = NULL, burnin
= NULL, compute.log.likelihood = TRUE, trace = 0L, freeze.topics = FALSE)
答案 0 :(得分:0)
lad::lda.collapsed.gibbs.sampler(), then *every* term in your
UKlda2 $ vocab`之前,将为主题分配概率。
这里发生的事情可能是你的话语频率很低,很难找到你们任何主题的顶部。阻塞也可能改变它们,例如:
quanteda::char_wordstem("euroscepticism")
## [1] "eurosceptic"
我建议你先确保你的单词存在于dfm中,通过:
colSums(UKdfm2)["eurosceptic"]
然后你可以在拟合的主题模型对象中查看这个单词和其他主题比例的拟合分布。