20newsgroup-18828数据集有什么问题?

时间:2014-01-22 08:40:01

标签: machine-learning weka

我目前在weka中使用20NewsGroup-18828数据集。我选择了一个文档的子集,每个类别100个(总共2000个文档),当我尝试使用朴素贝叶斯,SVM和K-nn进行分类时,我将其划分为70%(训练)和30%(测试),其准确性是非常低。这是我在数据集上执行的操作列表

  1. StringtoWordVector(使用Tf-Idf进行索引和术语加权,智能禁用词列表,雪球词干分析器)

  2. 使用特征选择降低维度(InformationGain)

  3. 使用特征变换(随机投影)降低维度
  4. 当我使用具有20,000个文档的原始数据集时,它表现良好,但它有重复,例如某些文档被分类为多个类别。

    是否有人使用过这个数据集,或者有人能告诉我我做错了什么?

1 个答案:

答案 0 :(得分:1)

关于数据集之间的差异

20newsgroup( o riginal数据集)与20newsgroup-18828( m odified)之间的主要区别是:

  • o包含重复项,m不包含
  • o包含琐碎问题,因为它包含新闻组标识标题,m仅包含来自主题标题(因此它仍然是问题的简单版本,但比o更难),例如:

关于无神论的文件51126

原始形式:

  

路径:   cantaloupe.srv.cs.cmu.edu!crabapple.srv.cs.cmu.edu!fs7.ece.cmu.edu!europa.eng.gtefsd.com!howland.reston.ans.net!noc.near.net! news.centerline.com!UUNET!olivea!sgigate!sgiblab!adagio.panasonic.com!nntp-server.caltech.edu!基思   来自:keith@cco.caltech.edu(Keith Allan Schneider)新闻组:    alt.atheism 主题:Re:>>>>>>夸张的屁股消息ID:   < 1pi9btINNqa5@gap.caltech.edu>日期:2008年4月2日20:57:33 GMT参考文献:   < 1ou4koINNe67@gap.caltech.edu> < 1p72bkINNjt7@gap.caltech.edu>   < 93089.050046MVS104@psuvm.psu.edu> < 1pa6ntINNs5d@gap.caltech.edu>   < 1993Mar30.210423.1302@bmerh85.bnr.ca> < 1pcnqjINNpon@gap.caltech.edu>    组织:加州研究所   技术,帕萨迪纳线:9 NNTP-Posting-Host:   punisher.caltech.edu

     

kmr4@po.CWRU.edu(Keith M. Ryan)写道:

     

>>那为什么人们一遍又一遍地问同样的问题呢?

     

>因为你很少回答它们。

     

不,我已经回答了所提出的每一个问题,而且大多数都得到了答复   多次。

     

基思

以修改后的形式(-18828版本)

  

来自:keith@cco.caltech.edu(Keith Allan Schneider)

     

主题:回复:>>>>>>夸夸其谈

     

kmr4@po.CWRU.edu(Keith M. Ryan)写道:

     

>>那为什么人们一遍又一遍地问同样的问题呢?

     

>因为你很少回答它们。

     

不,我已经回答了所提出的每一个问题,而且大多数都得到了答复   多次。

     

基思

正如您所看到的,原始数据非常简单,您实际上可以在文件中找到标签的名称...这就是为什么即使您的整个处理概念,您也总能获得这些数据的好分数非常非常错误。

所以问题不是“20newsgroup-18828出了什么问题”而是“原始数据集有什么问题”。

一般想法

首先,你为什么认为出了什么问题?您在非常小的(每类70个训练向量)数据集上执行非常随意的数据表示处理方法(两个不同的降维步骤)。这些数据没有任何问题,这是一个简单的NLP数据,因为大多数NLP任务需要大量数据,而且“天真”(不是基于NLP)维数降低技术无法保证真正提供帮助。

,即使你做错了,在90%的操作案例(任意高数字)中,错误在用户认为他做了什么,以及他实际做了什么之间。因此,描述你所做的事情不会带来任何帮助,你必须显示你的确切行为(通过给出一个可重复的例子)。