Question

我有一个excel文件（original_data.xls），其中一列仅使用阿拉伯语数据。我还有另一个文本文件（keywords.txt），其中包含一些阿拉伯语单词。我只想从keyword.txt文件中提取至少包含一个单词的那些行。我尝试了readLines（）和scan（）but。如果使用的是英语但使用阿拉伯语，那将非常容易。作为示例，在这里我想查找关键字1是否存在于test_data中。

keyword1<- c("الروافض")

test_data <- c("الدولة_الإسلامية لا حول لها ولا قوة إلا بالله وهي مجرد سبب")

当我直接使用grepl时，它似乎可以工作。

keywords1 <- "الرافض"
test_data <- c("رافضي","رواف","الرافض")


###[1] FALSE FALSE  TRUE

EDIT-1 这就是我尝试过的。但是clean_data2中没有数据。

original_data<-read_excel("original_data.xlsx")

fileName <- "keywords.txt"

conn <- file(fileName,open="r")
linn <-readLines(conn)
for (i in 1:length(linn)){
print(linn[i])
  clean_data2 <- clean_data[grep(pattern = paste("\\b", linn[i] , "\\b", sep = ""), x = clean_data$Snippet, fixed = TRUE),]

}
close(conn)

R中的阿拉伯语模式匹配

0 个答案: