Question

我在R中使用CRAN的TM软件包。我在创建基于语料库的DocumentTermMatrix时遇到了问题。问题是当我创建一个基于UTF-8语料库的TermDocumentMatrix时，一些单词会变成unicode符号。

corpus <- Corpus(VectorSource(vector_with_texts_in_several_languages, encoding = "UTF-8"))
tdm <- TermDocumentMatrix(corpus, control=list(weighting=weightTfIdf))
print(Terms(tdm)[1:3])

返回：

[1] "<U+03BB>a<U+03B3><U+03AF>a"
[2] "<U+03C1><U+03AE>fa<U+03BD><U+03BF><U+03C2>" 
[3] "<U+03C1><U+03AF>p<U+03BF><U+03C5>"

如果我手动检查语料库，那么我会看到正确的输出。

print(corpus[[1]])

返回：

квартира на кутузовском

有谁知道如何使用正确的条款获取TermDocumentMatrix？或者有没有办法将这些unicode符号再次转换为“可读”输出？

注意：print（Terms（tdm））不包含print中的单词（语料库[[1]]）

Answer 1

我怀疑编码是第一步的，你可以尝试检查语料库的第一个元素：

 corpus[[1]]

创建DocumentTermMatrix时的Unicode符号

1 个答案: