我是NLP概念的新手。我需要将收件箱中的邮件分类为账单,健康状况,广告等。我打算使用nltk进行分类和阅读nltk.classify.naivebayes是一个不错的选择。我从哪里开始?任何人都可以给我一个简单的示例代码。我看过很多帖子解释了naivebayes及其算法。
答案 0 :(得分:-2)
首先,如前所述,您应该注释您的数据。这意味着将标签(例如账单,健康状况)分配给收件箱中已有的电子邮件。 之后,您必须将其标准化,这意味着将其拆分为标记并将所有单词转换为小写。
要开始处理数据,必须将其表示为词典中的向量。
这也是一个很好的Tutorial我觉得非常有用。