我将一组中文文档转换为分段的单词(一个list
对象),然后将list
对象转换为一个文档术语矩阵(称为dtm
),然后供稿将其转换为LDA模型(使用LDA()
包中的topicmodels
函数)。最后,我使用tidy()
包中的tidytext
估算了单词主题分配(“ beta”);但是,即使我在term
中插入encoding = "UTF-8"
,tidy()
列也无法显示中文字符。
我在下面提供了复制代码和部分数据,我想知道是否可以手动更改term
的{{1}}列的编码,以便它可以显示那些汉字并在绘图上显示这些字符(以备后用)。如果有人能对此有所启发,我们将不胜感激。
w_topics