使用R的阿拉伯语文本挖掘

时间:2014-09-03 23:01:28

标签: r text arabic text-mining tweets

我是一名新用户,我只想获得有关R的工作方面的帮助。我正在进行阿拉伯语文本挖掘,我很乐意帮助任何人有这方面的经验。到目前为止,我觉得要将阿拉伯语文本规范化,甚至R也不会在控制台中打印阿拉伯字符。我现在陷入困境,我不知道改变语言就像在Weka中进行挖掘或任何其他方式一样。任何人都可以告诉我,如果有人在使用R开发阿拉伯语文本时取得了什么成绩吗? 顺便说一句,我正在编写阿拉伯语推文数据集分析。我花了一个月的时间来获取数据。而且我不知道要花多长时间来预处理文本。

1 个答案:

答案 0 :(得分:2)

我在这方面没有太多经验,但是当我尝试这个时,我没有阿拉伯字符的问题:

require(tm)
require(tm.plugin.webmining)
require(SnowballC)

corpus <- WebCorpus(GoogleNewsSource("سلام"))
corpus
inspect(corpus)

tdm <- TermDocumentMatrix(corpus)

确保在操作系统和IDE上安装正确的字体。

```{r}
y <<- dget("file") # get the file ext rated from MongoDB with rmongodb package
a <<- y$tweet_text # extract only the text of the tweets in the dataset
text_df <<- data.frame(a, stringsAsFactors = FALSE) # Save as a data frame
myCorpus_df <<- Corpus(DataframeSource(text_df_2)) # Compute a Corpus from the data frame
```

在OS X中,正确表示阿拉伯字符:

```{r}
str(myCorpus_df[1:2])
```

List of 2
 $ 1:List of 2
  ..$ content: chr "The CHRONICLE EYE  Ahrar al#Sham is clearly fighting #ISIS where its men storm some #Manbij buildings #Aleppo "
  ..$ meta   :List of 7
  .. ..$ author       : chr(0) 
  .. ..$ datetimestamp: POSIXlt[1:1], format: "2014-07-03 22:42:18"
  .. ..$ description  : chr(0) 
  .. ..$ heading      : chr(0) 
  .. ..$ id           : chr "1"
  .. ..$ language     : chr "en"
  .. ..$ origin       : chr(0) 
  .. ..- attr(*, "class")= chr "TextDocumentMeta"
  ..- attr(*, "class")= chr [1:2] "PlainTextDocument" "TextDocument"


 $ 2:List of 2
  ..$ content: chr "RT @######## جبهة النصرة مهاجرينها وأنصارها  مقراتها مكان آمن لكل من يخشى على نفسه الآذى "
  ..$ meta   :List of 7
  .. ..$ author       : chr(0) 
  .. ..$ datetimestamp: POSIXlt[1:1], format: "2014-07-03 22:42:18"
  .. ..$ description  : chr(0) 
  .. ..$ heading      : chr(0) 
  .. ..$ id           : chr "2"
  .. ..$ language     : chr "en"
  .. ..$ origin       : chr(0) 
  .. ..- attr(*, "class")= chr "TextDocumentMeta"
  ..- attr(*, "class")= chr [1:2] "PlainTextDocument" "TextDocument"
 - attr(*, "class")= chr [1:2] "VCorpus" "Corpus"

当我在两个操作系统(OS X和Win 7)上检查阿拉伯语单词的编码时,它似乎编码良好:

```{r}
Encoding("لمياه_و_الإصحا")
```

[1] "UTF-8"

这也可能有用: Reading arabic data text in R and plot()