通过R标准化地址

时间:2018-04-13 17:30:15

标签: r

我有一个CSV文件,其中包含Emailadress,Address1,Address2,city,state等数据不唯一的列

EmailAddress    Address1                    Address2   City       State
xyz@gmail.com   510 E. Fellows St., unit 2             Fallon      NV
abc@yahoo.com   4432 Lockhill Selma Rd.                Sarosta     FL

我希望这些地址标准化,并且要删除之间和最后的句点空格。为此我尝试了gsub但没有成功。我也希望St spell as street,Rd as Road。

期望的输出:

EmailAddress    Address1                  Address2   City       State
   xyz@gmail.com   510 East Fellows Street,Unit 2       Fallon      NV
   abc@yahoo.com   4432 Lockhill Selma Road             Sarosta     FL

我试过了

Address <- read.csv("c:Desktop\\New Folder\\Address.csv", header=T, sep=",", stringsAsFactors = FALSE)
A_df <- as.data.frame(Address)
Address1 <- gsub("\\.", "", A_df$Address1)

这不是给我想要的输出。任何帮助表示赞赏

1 个答案:

答案 0 :(得分:0)

它对我有用。除非你想要它在数据帧而不是矢量。我可能会删除最后的任何句号。它只适用于regex模式,因此应该为您提供要使用的模式。

A_df$Address1 <- gsub("\\Rd", "Road", A_df$Address1)
A_df$Address1 <- gsub("\\St.", "Street", A_df$Address1)
A_df$Address1 <- gsub("\\.", "", A_df$Address1)