Question

如何使用R对包含10000个句子的阿拉伯文本进行词干提取（获取单词的词根）？例如，“اعلاميون”之类的单词表示“علم” 而“حركات”则为“حرك”

Answer 1

arabic <- c("اعلاميون")
arabic_document <- VCorpus(VectorSource(arabic))
arabic_stem <- tm_map(arabic_document, stemDocument, language = 'arabic')

通常可以正常工作，但是据我所知，tm软件包不会支持阿拉伯语。

尝试一些变化；

library(arabicStemR)

arabic <- tm_map(arabic_document, content_transformer(stem))