创建DocumentTermMatrix时的Unicode符号

时间:2012-10-11 09:35:39

标签: r unicode text-mining tm

我在R中使用CRAN的TM软件包。我在创建基于语料库的DocumentTermMatrix时遇到了问题。问题是当我创建一个基于UTF-8语料库的TermDocumentMatrix时,一些单词会变成unicode符号。

corpus <- Corpus(VectorSource(vector_with_texts_in_several_languages, encoding = "UTF-8"))
tdm <- TermDocumentMatrix(corpus, control=list(weighting=weightTfIdf))
print(Terms(tdm)[1:3])

返回:

[1] "<U+03BB>a<U+03B3><U+03AF>a"
[2] "<U+03C1><U+03AE>fa<U+03BD><U+03BF><U+03C2>" 
[3] "<U+03C1><U+03AF>p<U+03BF><U+03C5>"

如果我手动检查语料库,那么我会看到正确的输出。

print(corpus[[1]])

返回:

квартира на кутузовском

有谁知道如何使用正确的条款获取TermDocumentMatrix?或者有没有办法将这些unicode符号再次转换为“可读”输出?

注意:print(Terms(tdm))不包含print中的单词(语料库[[1]])

1 个答案:

答案 0 :(得分:0)

我怀疑编码是第一步的,你可以尝试检查语料库的第一个元素:

 corpus[[1]]