我应该如何分析以DataScientist身份进入的电子邮件?

时间:2020-03-09 10:23:02

标签: nlp

我目前在一家大公司担任DataScientist,这意味着我们每天都会收到大量电子邮件,我们希望能够对其进行尽可能准确的分类。

数据量根本就不是问题。我可以提取任意数量的输入邮件。

我只是真的不知道从哪里开始,也从未从事过nlp问题研究,所以我想知道你们会想到什么想法或技术。

我对分析我拥有的数据的想法以及我可以想到的模型感兴趣。 出于隐私原因,我不想过多介绍我在哪里工作,但我也许可以回答您的一些问题!

我的主要问题是如何处理所有这些未分类的数据。这些邮件没有被标记,所以我如何能够创建一个nlp模型并能够评估他的表现而又无法计算召回率,精确度...

对于要分析输入邮件的模型,您还会有任何建议。我想标记它们,例如帐单,错误,问题等...

非常感谢

1 个答案:

答案 0 :(得分:0)

可能会将它们转换为具有频繁特征的tfidf矩阵并将其分类是一个起点。