R-使用自定义功能进行有效的数据清理

时间:2020-04-30 16:53:47

标签: r data-science

我正在清理由1M个名称组成的数据集。清洁是通过一个功能完成的,该功能包括大约40次擦拭,例如name=gsub("Johnmichael", "John Michael",name,ignore.case=TRUE)name=gsub("Mihcael", "Michael",name,ignore.case=TRUE)

我目前正像这样直接使用清洁功能:

contacts$first_name=clean_name(contacts$first_name)

我的问题是我的代码非常慢,因为它一次将函数应用于整个向量。我试图找到一种为每个字符串并行使用该函数的方法,我尝试了sapply,但似乎没有发现任何改进。 有什么建议吗?

1 个答案:

答案 0 :(得分:0)

2

在Windows x64中的R中安装OpenBLAS

打开网址http://sourceforge.net/projects/openblas/files/

打开最新版本的文件夹

下载OpenBLAS-v0.2.13-Win64-int32.zip和mingw64_dll.zip

解压“ OpenBLAS-v0.2.13-Win64-int32.zip”,找到“ libopenblas.dll”,并将此文件重命名为“ Rblas.dll”,将文件复制到类似“ \ R \ R-3.1”的路径.2 \ bin \ x64“(记住要备份)解压缩” mingw64_dll.zip“并将所有DLL复制到同一路径” \ R \ R-3.1.2 \ bin \ x64“