我正在清理由1M个名称组成的数据集。清洁是通过一个功能完成的,该功能包括大约40次擦拭,例如name=gsub("Johnmichael", "John Michael",name,ignore.case=TRUE)
和name=gsub("Mihcael", "Michael",name,ignore.case=TRUE)
我目前正像这样直接使用清洁功能:
contacts$first_name=clean_name(contacts$first_name)
我的问题是我的代码非常慢,因为它一次将函数应用于整个向量。我试图找到一种为每个字符串并行使用该函数的方法,我尝试了sapply,但似乎没有发现任何改进。 有什么建议吗?
答案 0 :(得分:0)
2
在Windows x64中的R中安装OpenBLAS
打开网址http://sourceforge.net/projects/openblas/files/
打开最新版本的文件夹
下载OpenBLAS-v0.2.13-Win64-int32.zip和mingw64_dll.zip
解压“ OpenBLAS-v0.2.13-Win64-int32.zip”,找到“ libopenblas.dll”,并将此文件重命名为“ Rblas.dll”,将文件复制到类似“ \ R \ R-3.1”的路径.2 \ bin \ x64“(记住要备份)解压缩” mingw64_dll.zip“并将所有DLL复制到同一路径” \ R \ R-3.1.2 \ bin \ x64“