我正在尝试包含特定阿拉伯语短语的角色向量中的匹配元素。
我到目前为止:
#load list of Arabic phrases
list.of.phrases <- read.table("arabic_phrases.txt")
#look for the first phrase
phrase1 <- arabic.text.vector[grepl(list.of.phrases[1],arabic.text.vector)]
不幸的是,这种方法或使用原始阿拉伯语文本似乎没有返回任何内容,我收到此消息:
Error in `[[<-.data.frame`(`*tmp*`, qname, value = 1) :
replacement has 1 row, data has 0
我知道我可以使用以下字母匹配阿拉伯语单词:[U0627-U06FF] +,如下所示:
#look for all cells containing arabic
arabic <-arabic.text.vector[grepl("[U0627-U06FF]+",arabic.text.vector)]
... 到目前为止,我的方法是将阿拉伯语文本转换为其Unicode点值,然后使用grep;但是,我在转换方面遇到了麻烦。
我是朝着正确的方向前进,还是有人有另一种解决方案/方法?