用于电子邮件的R数据争夺

时间:2015-06-12 16:58:10

标签: r data-cleansing

需要帮助!这是一个与工作相关的项目。我需要清理16,000封电子邮件...预计要手工完成:(我需要找一个从电子邮件中提取域名并将其放入新列,并将名称解析为新列,同时仍保留原始电子邮件。数据部分完整。

[libvpx @ 0x1e18780] vpx_codec_control
[libvpx @ 0x1e18780]   VP8E_SET_CPUUSED: 3

1 个答案:

答案 0 :(得分:2)

试试这个

df  <-  data.frame(Email.Address, First.Name, Last.Name, Company, stringsAsFactors = FALSE)
Corp <- sapply(strsplit(sapply(strsplit(df$Email.Address,"@"),"[[",2),"[.]"),"[[",1)
F.Name <- sapply(strsplit(sapply(strsplit(df$Email.Address,"@"),"[[",1), "[.]"),"[[",1)
L.Name <- sapply(strsplit(sapply(strsplit(df$Email.Address,"@"),"[[",1),"[.]"),tail,n=1)
L.Name[L.Name == F.Name]    <-  NA
OUT <- data.frame(df$Email.Address, F.Name, L.Name, Corp)
df[df=="NA" |is.na(df)] <-  OUT[df=="NA" |is.na(df)]
df

来自separate的{​​{1}}函数看起来也不错。

http://blog.rstudio.org/2014/07/22/introducing-tidyr/

根据您提供的信息,这也有效:

tidyr