应用错误收集

老实说，这是你正在解决的一个大问题。

一个非常基本的方法（它会产生不好的结果，但它总比没有好），手动分类1000条推文。它将帮助您了解您要归类的内容。

然后，在200万条推文中建立1000个最受欢迎单词的数据库。手动编辑此数据库（删除无用的单词以解决您的问题，例如单词“the”或“is”）。尝试建立一个“好”字的数据库（比如，爱，惊人），一个“坏”字的数据库（坏的，糟糕的......）和一个“建议”的数据库（建议，错误我没有还要别的吗）。目标是将您的数据库减少为最有用的单词（例如，最后只使用100个单词）

每条推文都变成了一个大小为100的向量。用你想做的任何技巧（天真的贝叶斯，SVM等......）

这整个过程概述了我之前为垃圾邮件分类所做的工作。它运作得非常好（98％的识别率？）。然后，我们真正的项目是在论坛上对仇恨邮件进行分类（诸如“go die”之类的消息）。我认为我们获得了80％的识别率，这非常差。但总比没有好。

由于您的200万条推文未被分类，因此您很难用此方法检查结果。您只能对1000个样本进行交叉验证。只是警告

如何检查200万条推文的分类结果？

1 个答案: