Question

我正在清理由1M个名称组成的数据集。清洁是通过一个功能完成的，该功能包括大约40次擦拭，例如name=gsub("Johnmichael", "John Michael",name,ignore.case=TRUE)和name=gsub("Mihcael", "Michael",name,ignore.case=TRUE)

我目前正像这样直接使用清洁功能：

contacts$first_name=clean_name(contacts$first_name)

我的问题是我的代码非常慢，因为它一次将函数应用于整个向量。我试图找到一种为每个字符串并行使用该函数的方法，我尝试了sapply，但似乎没有发现任何改进。 有什么建议吗？

Answer 1

2

在Windows x64中的R中安装OpenBLAS

打开网址http://sourceforge.net/projects/openblas/files/

打开最新版本的文件夹

下载OpenBLAS-v0.2.13-Win64-int32.zip和mingw64_dll.zip

解压“ OpenBLAS-v0.2.13-Win64-int32.zip”，找到“ libopenblas.dll”，并将此文件重命名为“ Rblas.dll”，将文件复制到类似“ \ R \ R-3.1”的路径.2 \ bin \ x64“（记住要备份）解压缩” mingw64_dll.zip“并将所有DLL复制到同一路径” \ R \ R-3.1.2 \ bin \ x64“

R-使用自定义功能进行有效的数据清理

1 个答案: