我是R的新手,我想只检索从整个电子邮件主题收到的第一封电子邮件。每次在收件箱中收到电子邮件时,都会创建一个.csv文件(即我有许多重复文本的文件,只是在.csv文件顶部的最新答复不同)
我不确定如何提供我的代码来提供帮助,因为现在,我不知道如何开始我的数据清理的这一部分。
在提取最重复的文本(因为第一封电子邮件可能存在于所有后续文件中)之前,我是否可以根据他们所属的电子邮件线程对我的.csv文件进行分组?我的主题挖掘语料库?
或者有没有人有更好的方法来解决这个问题?我已经考虑过使用tm.plugin.mail中的threads函数,但由于这些是纯文本,因此每封电子邮件只返回1的深度。
编辑:
文件的标题只是字母数字的随机字符串,我只有一个元数据,包含发件人的姓名,发送的日期(没有提供时间),以及它对应的文件的标题。以下是我的数据的概念:
From: xxx@gmail.com
To: yyy@gmail.com
Subject: Re: xxx
Dear Sir,
(main content)
Yours Sincerely,
xxx
From: yyy@gmail.com
To: xxx@gmail.com
Subject: xxx
Dear Sir,
(main content)
Regards,
yyy
通常,这就是.csv文件的样子(除了每个逗号,根据.csv文件有一个新的换行符),所以它实际上非常混乱。没有一种固定的方式来确定电子邮件的格式,因此我尝试使用正则表达式删除最后一个" From:"的实例之前的所有内容。有些电子邮件采用其他格式:
On (date), (time), (name) <email address> wrote: