如何使用R对包含10000个句子的阿拉伯文本进行词干提取(获取单词的词根)? 例如,“اعلاميون”之类的单词表示“علم” 而“حركات”则为“حرك”
答案 0 :(得分:0)
arabic <- c("اعلاميون")
arabic_document <- VCorpus(VectorSource(arabic))
arabic_stem <- tm_map(arabic_document, stemDocument, language = 'arabic')
通常可以正常工作,但是据我所知,tm
软件包不会支持阿拉伯语。
尝试一些变化;
library(arabicStemR)
arabic <- tm_map(arabic_document, content_transformer(stem))
https://cran.r-project.org/web/packages/arabicStemR/arabicStemR.pdf