Question

我正在尝试包含特定阿拉伯语短语的角色向量中的匹配元素。

我到目前为止：

   #load list of Arabic phrases 
   list.of.phrases <- read.table("arabic_phrases.txt")

   #look for the first phrase
   phrase1 <- arabic.text.vector[grepl(list.of.phrases[1],arabic.text.vector)]

不幸的是，这种方法或使用原始阿拉伯语文本似乎没有返回任何内容，我收到此消息：

   Error in `[[<-.data.frame`(`*tmp*`, qname, value = 1) : 
   replacement has 1 row, data has 0

我知道我可以使用以下字母匹配阿拉伯语单词：[U0627-U06FF] +，如下所示：

   #look for all cells containing arabic
   arabic <-arabic.text.vector[grepl("[U0627-U06FF]+",arabic.text.vector)]

... 到目前为止，我的方法是将阿拉伯语文本转换为其Unicode点值，然后使用grep;但是，我在转换方面遇到了麻烦。

我是朝着正确的方向前进，还是有人有另一种解决方案/方法？

使用正则表达式匹配R中的阿拉伯语文本

0 个答案: