我正在分析带有R的stm
的已分析/分段的外语(简体中文)文本文档,以利用程序包的绘图环境。我没有使用该程序包的内置文本处理功能,因为它目前不支持处理中文文本。但是,在我成功准备了数据(需要documents
格式的vocab
和lda
并与相同行长的原始元数据相结合)并拟合模型之后,{{1 }}函数向我抛出了一条错误消息,可能是由于在预处理阶段出现了一些编码问题:
plot()
根据先前的一些建议,我应用了stringi
和utf8
的编码函数,将Error in nchar(text) : invalid multibyte string, element 1
编码为UTF-8,并再次重新绘制了估计结果,但是它返回了相同的错误。我想知道编码发生了什么,并且这种错误是否可解决,因为vocab
使用基本R的绘图功能,而后者在显示外语文本方面应该没有问题。 (请注意,在预处理原始文本之前,我已将语言环境重新设置为“中文”((简体)_China.936))
如果有人能启发我,我将不胜感激。我的代码在下面提供。
stm
答案 0 :(得分:2)
请使用
vocab <-iconv(out $ vocab)
或
vocab <-iconv(out $ vocab,to =“ UTF-8”)
代替