我目前在一家大公司担任DataScientist,这意味着我们每天都会收到大量电子邮件,我们希望能够对其进行尽可能准确的分类。
数据量根本就不是问题。我可以提取任意数量的输入邮件。
我只是真的不知道从哪里开始,也从未从事过nlp问题研究,所以我想知道你们会想到什么想法或技术。
我对分析我拥有的数据的想法以及我可以想到的模型感兴趣。 出于隐私原因,我不想过多介绍我在哪里工作,但我也许可以回答您的一些问题!
我的主要问题是如何处理所有这些未分类的数据。这些邮件没有被标记,所以我如何能够创建一个nlp模型并能够评估他的表现而又无法计算召回率,精确度...
对于要分析输入邮件的模型,您还会有任何建议。我想标记它们,例如帐单,错误,问题等...
非常感谢
答案 0 :(得分:0)
可能会将它们转换为具有频繁特征的tfidf矩阵并将其分类是一个起点。