R中的阿拉伯语模式匹配

时间:2019-05-08 06:44:46

标签: r unicode arabic

我有一个excel文件(original_data.xls),其中一列仅使用阿拉伯语数据。我还有另一个文本文件(keywords.txt),其中包含一些阿拉伯语单词。我只想从keyword.txt文件中提取至少包含一个单词的那些行。我尝试了readLines()和scan()but。如果使用的是英语但使用阿拉伯语,那将非常容易。作为示例,在这里我想查找关键字1是否存在于test_data中。

keyword1<- c("الروافض")

test_data <- c("الدولة_الإسلامية لا حول لها ولا قوة إلا بالله وهي مجرد سبب")

当我直接使用grepl时,它似乎可以工作。

keywords1 <- "الرافض"
test_data <- c("رافضي","رواف","الرافض")


###[1] FALSE FALSE  TRUE


EDIT-1  这就是我尝试过的。但是clean_data2中没有数据。

original_data<-read_excel("original_data.xlsx")

fileName <- "keywords.txt"

conn <- file(fileName,open="r")
linn <-readLines(conn)
for (i in 1:length(linn)){
print(linn[i])
  clean_data2 <- clean_data[grep(pattern = paste("\\b", linn[i] , "\\b", sep = ""), x = clean_data$Snippet, fixed = TRUE),]

}
close(conn)

0 个答案:

没有答案