如何用R处理中文/日文字符

时间:2013-04-23 16:29:05

标签: r text-mining

我希望能够使用类似tm的包能够用R分割和识别非英语字符(主要是日语/泰语/中文)。我想做的是将其转换为某种矩阵喜欢格式,然后运行随机森林/逻辑回归进行文本分类。有没有可能用tm或其他R包来做到这一点?

1 个答案:

答案 0 :(得分:2)

修改

看起来R很难用非英文字符作为文本阅读。我尝试从网上抓取中文字母,如果字符编码一致,我会得到一个可能有帮助的结果。

### Require package used to parse HTML Contents of a web page
require(XML)
### Open an internet connection
url <- url('http://www.chinese-tools.com/characters/alphabet.html')
### Read in Content line by line
page <- readLines(url, encoding = "UTF-8")
### Parse HTML Code
page <- htmlParse(page)
### Create a list of tables
page <- readHTMLTable(page)
### The alphabet is contained in the third table of the page
alphabet <- as.data.frame(page[3])

您现在有一个美国字母字符列表,另一列对应于这些字符如何被读入R中。如果它们在原始对象中以相同的方式读取您希望发送文本,那么它是否可能使用正则表达式一次一个地搜索这些编码字符?