如果函数源自R,则Stringi / stringr模式的行为会有所不同

时间:2017-09-19 14:55:39

标签: r stringr stringi

我现在使用stringi包一段时间了,一切正常。

我最近想在函数中放入一些正则表达式,并将该函数存储在一个单独的文件中。如果从脚本加载函数,代码工作正常,但是当它来源时,我没有得到预期的结果。

以下是重现此问题的代码:

clean <- function(text){
  stri_replace_all_regex(str = text, 
                         pattern = "(?i)[^a-zàâçéèêëîïôûùüÿñæœ0-9,\\.\\?!']",
                         replacement = " ")
}
text <- "A sample text with some french accent é, è, â, û and some special characters |, [, ( that needs to be cleaned."
clean(text) # OK
[1] "A sample text with some french accent é, è, â, û and some special characters  ,  ,   that needs to be cleaned."
source(clean.r)
clean(text) # KO
[1] "A sample text with some french accent  ,  ,  ,   and some special characters  ,  ,   that needs to be cleaned."

我想删除所有非字母,重音字母和标点符号?!,.

如果函数直接在脚本中加载,代码就可以正常工作。如果它来源,那么它会给出不同的结果。

我也尝试使用stringr,我遇到了同样的问题。我的文件以UTF-8编码保存。

我不明白为什么会这样,非常感谢任何帮助。

谢谢。

R version 3.4.1 (2017-06-30)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows >= 8 x64 (build 9200)

Matrix products: default

locale:
[1] LC_COLLATE=French_France.1252  LC_CTYPE=French_France.1252   
[3] LC_MONETARY=French_France.1252 LC_NUMERIC=C                  
[5] LC_TIME=French_France.1252    

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
[1] stringi_1.1.5     data.table_1.10.4

loaded via a namespace (and not attached):
[1] compiler_3.4.1 tools_3.4.1    yaml_2.1.14 

1 个答案:

答案 0 :(得分:0)

尝试首先将文本转换为ASCII。这将更改字符,并在R中提供函数时可能允许相同的行为。

+1到费利佩·阿尔瓦伦加(Felipe Alvarenga) https://stackoverflow.com/a/45941699/2069472

mysqli_result