我是一名新用户,我只想获得有关R的工作方面的帮助。我正在进行阿拉伯语文本挖掘,我很乐意帮助任何人有这方面的经验。到目前为止,我觉得要将阿拉伯语文本规范化,甚至R也不会在控制台中打印阿拉伯字符。我现在陷入困境,我不知道改变语言就像在Weka中进行挖掘或任何其他方式一样。任何人都可以告诉我,如果有人在使用R开发阿拉伯语文本时取得了什么成绩吗? 顺便说一句,我正在编写阿拉伯语推文数据集分析。我花了一个月的时间来获取数据。而且我不知道要花多长时间来预处理文本。
答案 0 :(得分:2)
我在这方面没有太多经验,但是当我尝试这个时,我没有阿拉伯字符的问题:
require(tm)
require(tm.plugin.webmining)
require(SnowballC)
corpus <- WebCorpus(GoogleNewsSource("سلام"))
corpus
inspect(corpus)
tdm <- TermDocumentMatrix(corpus)
确保在操作系统和IDE上安装正确的字体。
```{r}
y <<- dget("file") # get the file ext rated from MongoDB with rmongodb package
a <<- y$tweet_text # extract only the text of the tweets in the dataset
text_df <<- data.frame(a, stringsAsFactors = FALSE) # Save as a data frame
myCorpus_df <<- Corpus(DataframeSource(text_df_2)) # Compute a Corpus from the data frame
```
在OS X中,正确表示阿拉伯字符:
```{r}
str(myCorpus_df[1:2])
```
List of 2
$ 1:List of 2
..$ content: chr "The CHRONICLE EYE Ahrar al#Sham is clearly fighting #ISIS where its men storm some #Manbij buildings #Aleppo "
..$ meta :List of 7
.. ..$ author : chr(0)
.. ..$ datetimestamp: POSIXlt[1:1], format: "2014-07-03 22:42:18"
.. ..$ description : chr(0)
.. ..$ heading : chr(0)
.. ..$ id : chr "1"
.. ..$ language : chr "en"
.. ..$ origin : chr(0)
.. ..- attr(*, "class")= chr "TextDocumentMeta"
..- attr(*, "class")= chr [1:2] "PlainTextDocument" "TextDocument"
$ 2:List of 2
..$ content: chr "RT @######## جبهة النصرة مهاجرينها وأنصارها مقراتها مكان آمن لكل من يخشى على نفسه الآذى "
..$ meta :List of 7
.. ..$ author : chr(0)
.. ..$ datetimestamp: POSIXlt[1:1], format: "2014-07-03 22:42:18"
.. ..$ description : chr(0)
.. ..$ heading : chr(0)
.. ..$ id : chr "2"
.. ..$ language : chr "en"
.. ..$ origin : chr(0)
.. ..- attr(*, "class")= chr "TextDocumentMeta"
..- attr(*, "class")= chr [1:2] "PlainTextDocument" "TextDocument"
- attr(*, "class")= chr [1:2] "VCorpus" "Corpus"
当我在两个操作系统(OS X和Win 7)上检查阿拉伯语单词的编码时,它似乎编码良好:
```{r}
Encoding("لمياه_و_الإصحا")
```
[1] "UTF-8"