我甚至不确定如何制定搜索方式。
在我的MySQL数据中,
SELECT "Anaïs" = "Anais"
产量" 1"。该表是utf8mb4编码的,带有general_ci排序规则。 (而且我几乎不知道这实际上意味着什么。)所以在我的数据库中,这两个字符串是等价的。
但我将这些数据拉入R脚本,并使用dplyr join将其与不同的表/数据帧相匹配。而在R:
"Anaïs" == "Anais"
收益率"错误"。
此外,MySQL不区分大小写,但在R(DBI ??)中,连接区分大小写。 (在我的原始数据中存在一堆拼写错误,其中事情意外地没有大写,例如Depaul和DePaul。)
解决此问题的最佳方法是什么?
感谢。
答案 0 :(得分:0)
从stringi
stri_trans_general
将拉丁语转换为ASCII
library(stringi)
stri_trans_general('Anaïs','Latin-ASCII')=='Anais'
[1] TRUE
对于上部cass,使用toupper