仅检索长电子邮件主题的第一封电子邮件

时间:2016-06-28 05:41:56

标签: r email

我是R的新手,我想只检索从整个电子邮件主题收到的第一封电子邮件。每次在收件箱中收到电子邮件时,都会创建一个.csv文件(即我有许多重复文本的文件,只是在.csv文件顶部的最新答复不同)

我不确定如何提供我的代码来提供帮助,因为现在,我不知道如何开始我的数据清理的这一部分。

在提取最重复的文本(因为第一封电子邮件可能存在于所有后续文件中)之前,我是否可以根据他们所属的电子邮件线程对我的.csv文件进行分组?我的主题挖掘语料库?

或者有没有人有更好的方法来解决这个问题?我已经考虑过使用tm.plugin.mail中的threads函数,但由于这些是纯文本,因此每封电子邮件只返回1的深度。

编辑:

文件的标题只是字母数字的随机字符串,我只有一个元数据,包含发件人的姓名,发送的日期(没有提供时间),以及它对应的文件的标题。以下是我的数据的概念:

From: xxx@gmail.com

To: yyy@gmail.com

Subject: Re: xxx

Dear Sir, 

(main content) 

Yours Sincerely, 

xxx

From: yyy@gmail.com

To: xxx@gmail.com

Subject: xxx

Dear Sir, 

(main content) 

Regards, 

yyy

通常,这就是.csv文件的样子(除了每个逗号,根据.csv文件有一个新的换行符),所以它实际上非常混乱。没有一种固定的方式来确定电子邮件的格式,因此我尝试使用正则表达式删除最后一个" From:"的实例之前的所有内容。有些电子邮件采用其他格式:

On (date), (time), (name) <email address> wrote:

0 个答案:

没有答案