我正在使用R用阿拉伯语进行文本挖掘,并且在用R studio定义阿拉伯语时遇到了一些问题。 我将本地阿拉伯语设置如下所示:
Sys.setlocale(“ LC_CTYPE”,“阿拉伯”)
显示阿拉伯语并且我可以阅读,但是当我尝试计算单词频率时,它并没有定义阿拉伯语,而是将其转换为一些符号。
这是我的代码和数据示例:
数据:
> head(data)
text joy anger
1 احاطه مجلس امن اليمن يوم مهمه لغايه يجب تكون اجهزه امم متحده واضحه تجاه تسويف حوثي تزامه انسحا 2 0
2 فارسلنا طوفان جراد قمل ضفادع دم ايات مفصل حشرات بكمي 0 0
3 امار تمنع سفرالمسؤل يمنين اراضيهالامن ترتضيه لاجل مصلحه وبينما تطيق يمني مطاراتها وقت 0 0
4 عز تاج يفتخر راس اليمن وفخر ارض مشي يمني 2 0
5 اقسم عظيم تحارب اقسم عظيم سعوديه تحافظا حوثي 2 0
6 قرقاش احاطه مجلس امن اليمن يوم مهمه لغايه 1 0
代码:
emotion_tweet = c(
paste(data$text[data$anger > 0], collapse=" "),
paste(data$text[data$joy > 0], collapse=" "))
# create corpus
corpus = Corpus(VectorSource(emotion_tweet))
# create document term matrix
tdm = TermDocumentMatrix(corpus)
tdm = as.matrix(tdm)#the emotion
# column name binding
colnames(tdm) = c('anger','joy')#column names
tdm结果所有术语都是我无法理解的符号:
> head(tdm)
Docs
Terms anger joy
طھط 4933 6115
طھظ 2716 3039
طھظپ 12 18
طھظپط 411 418
طھظپطھ 1 3
طھظپطھط 4 2