用R中的tm读取unicode文本?

时间:2014-02-21 03:33:36

标签: r unicode tm

我正在使用文本挖掘包tm在R中使用unicode格式的文本。我希望unicode字符在被读入程序时不被破坏,但我找不到丢失的关键字。这是一个unicode文本的例子,它在被作为语料库读取时立即被搞砸了

library(tm)
u <- VectorSource("The great Chāṇakya (350–283 BC).",encoding = "UTF-8")
v <- Corpus(u)
inspect(v)
## [[1]]
## The great Chaṇakya (350–283 BC).  <--The ā has been coerced to "a"

writeCorpus(v,'test.txt')
## yields: The great Cha<U+1E47>akya (350–283 BC).

我也尝试过使用UTF-16,效果相同。有没有办法通过tm传递这个文本而不会被破坏?

0 个答案:

没有答案