Question

我正在分析带有R的stm的已分析/分段的外语（简体中文）文本文档，以利用程序包的绘图环境。我没有使用该程序包的内置文本处理功能，因为它目前不支持处理中文文本。但是，在我成功准备了数据（需要documents格式的vocab和lda并与相同行长的原始元数据相结合）并拟合模型之后，{{1 }}函数向我抛出了一条错误消息，可能是由于在预处理阶段出现了一些编码问题：

plot()

根据先前的一些建议，我应用了stringi和utf8的编码函数，将Error in nchar(text) : invalid multibyte string, element 1编码为UTF-8，并再次重新绘制了估计结果，但是它返回了相同的错误。我想知道编码发生了什么，并且这种错误是否可解决，因为vocab使用基本R的绘图功能，而后者在显示外语文本方面应该没有问题。（请注意，在预处理原始文本之前，我已将语言环境重新设置为“中文”（（简体）_China.936））

如果有人能启发我，我将不胜感激。我的代码在下面提供。

stm

Answer 1

请使用

vocab <-iconv（out $ vocab）

或

vocab <-iconv（out $ vocab，to =“ UTF-8”）

代替

外语编码中的无效多字节字符串

1 个答案: