我正在使用文本挖掘包tm在R中使用unicode格式的文本。我希望unicode字符在被读入程序时不被破坏,但我找不到丢失的关键字。这是一个unicode文本的例子,它在被作为语料库读取时立即被搞砸了
library(tm)
u <- VectorSource("The great Chāṇakya (350–283 BC).",encoding = "UTF-8")
v <- Corpus(u)
inspect(v)
## [[1]]
## The great Chaṇakya (350–283 BC). <--The ā has been coerced to "a"
writeCorpus(v,'test.txt')
## yields: The great Cha<U+1E47>akya (350–283 BC).
我也尝试过使用UTF-16,效果相同。有没有办法通过tm传递这个文本而不会被破坏?