我在R中使用CRAN的TM软件包。我在创建基于语料库的DocumentTermMatrix时遇到了问题。问题是当我创建一个基于UTF-8语料库的TermDocumentMatrix时,一些单词会变成unicode符号。
corpus <- Corpus(VectorSource(vector_with_texts_in_several_languages, encoding = "UTF-8"))
tdm <- TermDocumentMatrix(corpus, control=list(weighting=weightTfIdf))
print(Terms(tdm)[1:3])
返回:
[1] "<U+03BB>a<U+03B3><U+03AF>a"
[2] "<U+03C1><U+03AE>fa<U+03BD><U+03BF><U+03C2>"
[3] "<U+03C1><U+03AF>p<U+03BF><U+03C5>"
如果我手动检查语料库,那么我会看到正确的输出。
print(corpus[[1]])
返回:
квартира на кутузовском
有谁知道如何使用正确的条款获取TermDocumentMatrix?或者有没有办法将这些unicode符号再次转换为“可读”输出?
注意:print(Terms(tdm))不包含print中的单词(语料库[[1]])
答案 0 :(得分:0)
我怀疑编码是第一步的,你可以尝试检查语料库的第一个元素:
corpus[[1]]