我有两百万条推文,我需要将其分为三类:
但是,您如何查看分类结果?我可以随机选择一些推文,手动阅读他们的内容并检查他们的内容是否与给他们的分类标签相匹配?或者有更好的方法吗?
我听说有一些企业级软件包可以进行多级分类,但后来有人如何证明其结果具有重要意义,而无需手动浏览数百万条记录并检查分类?
答案 0 :(得分:0)
老实说,这是你正在解决的一个大问题。
一个非常基本的方法(它会产生不好的结果,但它总比没有好),手动分类1000条推文。它将帮助您了解您要归类的内容。
然后,在200万条推文中建立1000个最受欢迎单词的数据库。手动编辑此数据库(删除无用的单词以解决您的问题,例如单词“the”或“is”)。尝试建立一个“好”字的数据库(比如,爱,惊人),一个“坏”字的数据库(坏的,糟糕的......)和一个“建议”的数据库(建议,错误我没有还要别的吗)。目标是将您的数据库减少为最有用的单词(例如,最后只使用100个单词)
每条推文都变成了一个大小为100的向量。用你想做的任何技巧(天真的贝叶斯,SVM等......)
这整个过程概述了我之前为垃圾邮件分类所做的工作。它运作得非常好(98%的识别率?)。然后,我们真正的项目是在论坛上对仇恨邮件进行分类(诸如“go die”之类的消息)。我认为我们获得了80%的识别率,这非常差。但总比没有好。
由于您的200万条推文未被分类,因此您很难用此方法检查结果。您只能对1000个样本进行交叉验证。只是警告