我有一个excel文件(original_data.xls),其中一列仅使用阿拉伯语数据。我还有另一个文本文件(keywords.txt),其中包含一些阿拉伯语单词。我只想从keyword.txt文件中提取至少包含一个单词的那些行。我尝试了readLines()和scan()but。如果使用的是英语但使用阿拉伯语,那将非常容易。作为示例,在这里我想查找关键字1是否存在于test_data中。
keyword1<- c("الروافض")
test_data <- c("الدولة_الإسلامية لا حول لها ولا قوة إلا بالله وهي مجرد سبب")
当我直接使用grepl时,它似乎可以工作。
keywords1 <- "الرافض"
test_data <- c("رافضي","رواف","الرافض")
###[1] FALSE FALSE TRUE
EDIT-1 这就是我尝试过的。但是clean_data2中没有数据。
original_data<-read_excel("original_data.xlsx")
fileName <- "keywords.txt"
conn <- file(fileName,open="r")
linn <-readLines(conn)
for (i in 1:length(linn)){
print(linn[i])
clean_data2 <- clean_data[grep(pattern = paste("\\b", linn[i] , "\\b", sep = ""), x = clean_data$Snippet, fixed = TRUE),]
}
close(conn)