使用正则表达式匹配R中的阿拉伯语文本

时间:2014-01-28 17:35:38

标签: regex r unicode arabic

我正在尝试包含特定阿拉伯语短语的角色向量中的匹配元素。

我到目前为止:

   #load list of Arabic phrases 
   list.of.phrases <- read.table("arabic_phrases.txt")

   #look for the first phrase
   phrase1 <- arabic.text.vector[grepl(list.of.phrases[1],arabic.text.vector)]

不幸的是,这种方法或使用原始阿拉伯语文本似乎没有返回任何内容,我收到此消息:

   Error in `[[<-.data.frame`(`*tmp*`, qname, value = 1) : 
   replacement has 1 row, data has 0

我知道我可以使用以下字母匹配阿拉伯语单词:[U0627-U06FF] +,如下所示:

   #look for all cells containing arabic
   arabic <-arabic.text.vector[grepl("[U0627-U06FF]+",arabic.text.vector)]

... 到目前为止,我的方法是将阿拉伯语文本转换为其Unicode点值,然后使用grep;但是,我在转换方面遇到了麻烦。

我是朝着正确的方向前进,还是有人有另一种解决方案/方法?

0 个答案:

没有答案