使用R处理邮件文件

时间:2013-05-13 16:12:29

标签: r

我做了一些搜索,在找不到太多后我想我会发布这个问题。实际上,因为我没有找到太多,我认为这可能是答案的一个指标,但无论如何......这里是:

有没有人有使用R来处理邮件邮件的经验......如果是这样的话......你用的是哪些包?

我意识到R可能不是这项任务的最佳工具,但有时你必须使用你手头的工具,有时候你必须在工作中做“额外”的工作以保持就业...所以请不要这个问题太激烈了我。

基本上我正在考虑合并清除,dup / elim等东西。我已经使用了compare()和merge()命令了。我想在比较中加入一些等价物,例如

ST = ST =圣=街

BLVD =大道=大道=大道 等...

我很想知道是否已经为这种数据处理开发了软件包,所以我不是要重新发明轮子。

1 个答案:

答案 0 :(得分:2)

我建议采用以下基本工作流程:

(1)读入您的数据。我根据你的问题不知道它是什么样的,所以我认为这对你来说很容易。

(2)混合使用gsubtoupper和其他字符串操作工具将所有数据转换为相同的格式。即,获取所有地址以使用ST而不是St或街道等

(3)merge将所有内容整合到一个数据帧中。

(4)使用unique和/或sort / order清理列表并删除重复项。

(5)输出到你想要的任何格式。同样,问题不清楚,所以我不能在这里提供具体的建议。