我目前在weka中使用20NewsGroup-18828数据集。我选择了一个文档的子集,每个类别100个(总共2000个文档),当我尝试使用朴素贝叶斯,SVM和K-nn进行分类时,我将其划分为70%(训练)和30%(测试),其准确性是非常低。这是我在数据集上执行的操作列表
StringtoWordVector(使用Tf-Idf进行索引和术语加权,智能禁用词列表,雪球词干分析器)
使用特征选择降低维度(InformationGain)
当我使用具有20,000个文档的原始数据集时,它表现良好,但它有重复,例如某些文档被分类为多个类别。
是否有人使用过这个数据集,或者有人能告诉我我做错了什么?
答案 0 :(得分:1)
20newsgroup( o riginal数据集)与20newsgroup-18828( m odified)之间的主要区别是:
关于无神论的文件51126
原始形式:
路径: cantaloupe.srv.cs.cmu.edu!crabapple.srv.cs.cmu.edu!fs7.ece.cmu.edu!europa.eng.gtefsd.com!howland.reston.ans.net!noc.near.net! news.centerline.com!UUNET!olivea!sgigate!sgiblab!adagio.panasonic.com!nntp-server.caltech.edu!基思 来自:keith@cco.caltech.edu(Keith Allan Schneider)新闻组: alt.atheism 主题:Re:>>>>>>夸张的屁股消息ID: < 1pi9btINNqa5@gap.caltech.edu>日期:2008年4月2日20:57:33 GMT参考文献: < 1ou4koINNe67@gap.caltech.edu> < 1p72bkINNjt7@gap.caltech.edu> < 93089.050046MVS104@psuvm.psu.edu> < 1pa6ntINNs5d@gap.caltech.edu> < 1993Mar30.210423.1302@bmerh85.bnr.ca> < 1pcnqjINNpon@gap.caltech.edu> 组织:加州研究所 技术,帕萨迪纳线:9 NNTP-Posting-Host: punisher.caltech.edu
kmr4@po.CWRU.edu(Keith M. Ryan)写道:
>>那为什么人们一遍又一遍地问同样的问题呢?
>因为你很少回答它们。
不,我已经回答了所提出的每一个问题,而且大多数都得到了答复 多次。
基思
以修改后的形式(-18828版本)
来自:keith@cco.caltech.edu(Keith Allan Schneider)
主题:回复:>>>>>>夸夸其谈
kmr4@po.CWRU.edu(Keith M. Ryan)写道:
>>那为什么人们一遍又一遍地问同样的问题呢?
>因为你很少回答它们。
不,我已经回答了所提出的每一个问题,而且大多数都得到了答复 多次。
基思
正如您所看到的,原始数据非常简单,您实际上可以在文件中找到标签的名称...这就是为什么即使您的整个处理概念,您也总能获得这些数据的好分数非常非常错误。
所以问题不是“20newsgroup-18828出了什么问题”而是“原始数据集有什么问题”。
首先,你为什么认为出了什么问题?您在非常小的(每类70个训练向量)数据集上执行非常随意的数据表示处理方法(两个不同的降维步骤)。这些数据没有任何问题,这是一个简单的NLP数据,因为大多数NLP任务需要大量数据,而且“天真”(不是基于NLP)维数降低技术无法保证真正提供帮助。