Question

我希望能够使用类似tm的包能够用R分割和识别非英语字符（主要是日语/泰语/中文）。我想做的是将其转换为某种矩阵喜欢格式，然后运行随机森林/逻辑回归进行文本分类。有没有可能用tm或其他R包来做到这一点？

Answer 1

修改

看起来R很难用非英文字符作为文本阅读。我尝试从网上抓取中文字母，如果字符编码一致，我会得到一个可能有帮助的结果。

### Require package used to parse HTML Contents of a web page require(XML) ### Open an internet connection url <- url('http://www.chinese-tools.com/characters/alphabet.html') ### Read in Content line by line page <- readLines(url, encoding = "UTF-8") ### Parse HTML Code page <- htmlParse(page) ### Create a list of tables page <- readHTMLTable(page) ### The alphabet is contained in the third table of the page alphabet <- as.data.frame(page[3])

您现在有一个美国字母字符列表，另一列对应于这些字符如何被读入R中。如果它们在原始对象中以相同的方式读取您希望发送文本，那么它是否可能使用正则表达式一次一个地搜索这些编码字符？

如何用R处理中文/日文字符

1 个答案: