应用错误收集

时间：2017-06-21 05:50:00

标签： machine-learning nlp text-mining word2vec

我正在开展一个NLP项目，其中我有一个与欣赏相关的电子邮件列表。我试图从电子邮件内容中确定谁受到赞赏。这反过来将有助于组织进行绩效评估。

除了确定谁被欣赏之外，我还试图确定一个人所做的工作类型并对其进行评分。我使用开放式NLP（最大熵/逻辑回归）来分类电子邮件，并使用某种形式的启发式方法来识别被欣赏的人。

人员识别方法如下：

但是，这种方法非常简单，不适用于我们通常看到的复杂电子邮件。电子邮件可以包含许多电子邮件ID或被提及的人，并且他们不是欣赏的接收者。该人的背景不可用，因此准确性不是很好。

我正在考虑使用HMM和word2vec来解决人的问题。如果有人遇到过这个问题或有任何建议，我将不胜感激。

答案 0 :(得分：0)

使用tm包为R.并使用tf-idf（术语频率 - 逆文档频率）来确定谁欣赏。

我建议这样做是因为，对于我能读到的内容，这是一个无人监督的学习（你不会事先知道他们的欣赏）。因此，您必须描述文档（电子邮件）内容，并且该公式（tf-idf）将有助于了解特定文档中最常使用的单词，这些单词在所有其他文档中很少使用。

答案 1 :(得分：0)

解决此问题的一种方法是使用命名实体识别。您可以在文本上运行类似Stanford NER的内容，这将帮助您识别电子邮件中提到的所有人名，然后使用基于规则的chunker（例如Stanford TokensRegex）来提取提及人名和欣赏词的句子。

解决这个问题的最佳方法是将其视为有监督的学习问题。然后，您需要使用实体和表达短语以及它们之间的关系来注释一堆训练数据。然后，您可以使用Stanford Relation Extractor来提取适当的关系。