我希望能够使用类似tm的包能够用R分割和识别非英语字符(主要是日语/泰语/中文)。我想做的是将其转换为某种矩阵喜欢格式,然后运行随机森林/逻辑回归进行文本分类。有没有可能用tm或其他R包来做到这一点?
答案 0 :(得分:2)
修改强>
看起来R很难用非英文字符作为文本阅读。我尝试从网上抓取中文字母,如果字符编码一致,我会得到一个可能有帮助的结果。
### Require package used to parse HTML Contents of a web page
require(XML)
### Open an internet connection
url <- url('http://www.chinese-tools.com/characters/alphabet.html')
### Read in Content line by line
page <- readLines(url, encoding = "UTF-8")
### Parse HTML Code
page <- htmlParse(page)
### Create a list of tables
page <- readHTMLTable(page)
### The alphabet is contained in the third table of the page
alphabet <- as.data.frame(page[3])
您现在有一个美国字母字符列表,另一列对应于这些字符如何被读入R中。如果它们在原始对象中以相同的方式读取您希望发送文本,那么它是否可能使用正则表达式一次一个地搜索这些编码字符?