我做了一些搜索,在找不到太多后我想我会发布这个问题。实际上,因为我没有找到太多,我认为这可能是答案的一个指标,但无论如何......这里是:
有没有人有使用R来处理邮件邮件的经验......如果是这样的话......你用的是哪些包?
我意识到R可能不是这项任务的最佳工具,但有时你必须使用你手头的工具,有时候你必须在工作中做“额外”的工作以保持就业...所以请不要这个问题太激烈了我。
基本上我正在考虑合并清除,dup / elim等东西。我已经使用了compare()和merge()命令了。我想在比较中加入一些等价物,例如
ST = ST =圣=街
BLVD =大道=大道=大道 等...
我很想知道是否已经为这种数据处理开发了软件包,所以我不是要重新发明轮子。
答案 0 :(得分:2)
我建议采用以下基本工作流程:
(1)读入您的数据。我根据你的问题不知道它是什么样的,所以我认为这对你来说很容易。
(2)混合使用gsub
,toupper
和其他字符串操作工具将所有数据转换为相同的格式。即,获取所有地址以使用ST而不是St或街道等
(3)merge
将所有内容整合到一个数据帧中。
(4)使用unique
和/或sort
/ order
清理列表并删除重复项。
(5)输出到你想要的任何格式。同样,问题不清楚,所以我不能在这里提供具体的建议。