外语编码中的无效多字节字符串

时间:2019-08-02 16:40:47

标签: r encoding topic-modeling chinese-locale

我正在分析带有R的stm的已分析/分段的外语(简体中文)文本文档,以利用程序包的绘图环境。我没有使用该程序包的内置文本处理功能,因为它目前不支持处理中文文本。但是,在我成功准备了数据(需要documents格式的vocablda并与相同行长的原始元数据相结合)并拟合模型之后,{{1 }}函数向我抛出了一条错误消息,可能是由于在预处理阶段出现了一些编码问题:

plot()

根据先前的一些建议,我应用了stringiutf8的编码函数,将Error in nchar(text) : invalid multibyte string, element 1 编码为UTF-8,并再次重新绘制了估计结果,但是它返回了相同的错误。我想知道编码发生了什么,并且这种错误是否可解决,因为vocab使用基本R的绘图功能,而后者在显示外语文本方面应该没有问题。 (请注意,在预处理原始文本之前,我已将语言环境重新设置为“中文”((简体)_China.936))

如果有人能启发我,我将不胜感激。我的代码在下面提供。

stm

1 个答案:

答案 0 :(得分:2)

请使用

vocab <-iconv(out $ vocab)

vocab <-iconv(out $ vocab,to =“ UTF-8”)

代替