花了很多时间开发适当的语料库(例如停用词,tf-idf)之后,我在dtm
包中创建了tm
并运行了主题模型。
然后,我继续将主题与某些感兴趣的文档级协变量进行比较,只是得知stm
允许您使用感兴趣的文档级协变量来估计模型。
我已成功将dtm
的{{1}}转换为dfm
,并希望在转换为quanteda
之前将协变量添加到dfm
。
我有一个stm
和我感兴趣的协变量,它们与data.frame
共享相同的row.id
。
我正在寻找一种将dfm
与data.frame
的协变量合并的解决方案。
我尝试过:
dfm
中的 docvars
和metadoc
无济于事。
例如
quanteda
任何帮助将不胜感激!
答案 0 :(得分:0)
好的,我能够弄清楚。最后,它非常简单。我只需要整体指定data.frame
,而不仅是我感兴趣的专栏。这是代码:
dfm.w.metadata <- convert(dfm, to = "stm", docvars = df)