Question

我是R的新手，我想只检索从整个电子邮件主题收到的第一封电子邮件。每次在收件箱中收到电子邮件时，都会创建一个.csv文件（即我有许多重复文本的文件，只是在.csv文件顶部的最新答复不同）

我不确定如何提供我的代码来提供帮助，因为现在，我不知道如何开始我的数据清理的这一部分。

在提取最重复的文本（因为第一封电子邮件可能存在于所有后续文件中）之前，我是否可以根据他们所属的电子邮件线程对我的.csv文件进行分组？我的主题挖掘语料库？

或者有没有人有更好的方法来解决这个问题？我已经考虑过使用tm.plugin.mail中的threads函数，但由于这些是纯文本，因此每封电子邮件只返回1的深度。

编辑：

文件的标题只是字母数字的随机字符串，我只有一个元数据，包含发件人的姓名，发送的日期（没有提供时间），以及它对应的文件的标题。以下是我的数据的概念：

From: xxx@gmail.com

To: yyy@gmail.com

Subject: Re: xxx

Dear Sir, 

(main content) 

Yours Sincerely, 

xxx

From: yyy@gmail.com

To: xxx@gmail.com

Subject: xxx

Dear Sir, 

(main content) 

Regards, 

yyy

通常，这就是.csv文件的样子（除了每个逗号，根据.csv文件有一个新的换行符），所以它实际上非常混乱。没有一种固定的方式来确定电子邮件的格式，因此我尝试使用正则表达式删除最后一个＆＃34; From：＆＃34;的实例之前的所有内容。有些电子邮件采用其他格式：

On (date), (time), (name) <email address> wrote:

仅检索长电子邮件主题的第一封电子邮件

0 个答案: