RMeCab日文文本编码(R用户)

时间:2014-10-25 09:36:47

标签: r encoding character-encoding utf8-decode mecab

我从网上搜集日文内容进行内容分析。现在我正在准备文本数据,从创建术语 - 文档矩阵开始。我用来清理和解析问题的包是" RMeCab"。我被告知此程序包要求文本数据采用ANSI编码。但我的数据采用UTF-8编码,RMeCab的设置和R本身的全局设置也是如此。

我是否有必要更改文本文件的编码才能运行RMeCab?在这种情况下,如何快速转换成千上万个单独文本文件的编码?

我尝试编码转换网站,这给了我一些作为ANSI输出的胡言乱语。我不明白在RMeCab中输入看起来像一堆问号的东西背后的机制。如果我成功地将编码转换为ANSI并且我的文本数据看起来像一堆符号,那么RMeCab是否仍然可以将其读作日文文本?

0 个答案:

没有答案