如何使用R提取阿拉伯文字?

时间:2019-05-03 20:06:33

标签: r arabic stemming

如何使用R对包含10000个句子的阿拉伯文本进行词干提取(获取单词的词根)? 例如,“اعلاميون”之类的单词表示“علم”                      而“حركات”则为“حرك”

1 个答案:

答案 0 :(得分:0)

arabic <- c("اعلاميون")
arabic_document <- VCorpus(VectorSource(arabic))
arabic_stem <- tm_map(arabic_document, stemDocument, language = 'arabic')

通常可以正常工作,但是据我所知,tm软件包不会支持阿拉伯语。

尝试一些变化;

library(arabicStemR)

arabic <- tm_map(arabic_document, content_transformer(stem))

https://cran.r-project.org/web/packages/arabicStemR/arabicStemR.pdf