我目前在weka中使用20NewsGroup-18828数据集。我选择了一个文档的子集，每个类别100个（总共2000个文档），当我尝试使用朴素贝叶斯，SVM和K-nn进行分类时，我将其划分为70％（训练）和30％（测试），其准确性是非常低。这是我在数据集上执行的操作列表

StringtoWordVector（使用Tf-Idf进行索引和术语加权，智能禁用词列表，雪球词干分析器）
使用特征选择降低维度（InformationGain）
使用特征变换（随机投影）降低维度

当我使用具有20,000个文档的原始数据集时，它表现良好，但它有重复，例如某些文档被分类为多个类别。

是否有人使用过这个数据集，或者有人能告诉我我做错了什么？

关于数据集之间的差异

20newsgroup（ o riginal数据集）与20newsgroup-18828（ m odified）之间的主要区别是：

o包含重复项，m不包含
o包含琐碎问题，因为它包含新闻组标识标题，m仅包含来自和主题标题（因此它仍然是问题的简单版本，但比o更难），例如：

关于无神论的文件51126

原始形式：

路径：   cantaloupe.srv.cs.cmu.edu！crabapple.srv.cs.cmu.edu！fs7.ece.cmu.edu！europa.eng.gtefsd.com！howland.reston.ans.net！noc.near.net！ news.centerline.com！UUNET！olivea！sgigate！sgiblab！adagio.panasonic.com！nntp-server.caltech.edu！基思   来自：keith@cco.caltech.edu（Keith Allan Schneider）新闻组：    alt.atheism 主题：Re：＆gt;＆gt;＆gt;＆gt;＆gt;＆gt;夸张的屁股消息ID：   ＆LT; 1pi9btINNqa5@gap.caltech.edu>日期：2008年4月2日20:57:33 GMT参考文献：   ＆LT; 1ou4koINNe67@gap.caltech.edu> ＆LT; 1p72bkINNjt7@gap.caltech.edu>   ＆LT; 93089.050046MVS104@psuvm.psu.edu> ＆LT; 1pa6ntINNs5d@gap.caltech.edu>   ＆LT; 1993Mar30.210423.1302@bmerh85.bnr.ca> ＆LT; 1pcnqjINNpon@gap.caltech.edu>    组织：加州研究所   技术，帕萨迪纳线：9 NNTP-Posting-Host：   punisher.caltech.edu

kmr4@po.CWRU.edu（Keith M. Ryan）写道：

＆gt;＆gt;那为什么人们一遍又一遍地问同样的问题呢？

＆gt;因为你很少回答它们。

不，我已经回答了所提出的每一个问题，而且大多数都得到了答复   多次。

基思

以修改后的形式（-18828版本）

来自：keith@cco.caltech.edu（Keith Allan Schneider）

主题：回复：＆gt;＆gt;＆gt;＆gt;＆gt;＆gt;夸夸其谈

kmr4@po.CWRU.edu（Keith M. Ryan）写道：

＆gt;＆gt;那为什么人们一遍又一遍地问同样的问题呢？

＆gt;因为你很少回答它们。

不，我已经回答了所提出的每一个问题，而且大多数都得到了答复   多次。

基思

正如您所看到的，原始数据非常简单，您实际上可以在文件中找到标签的名称...这就是为什么即使您的整个处理概念，您也总能获得这些数据的好分数非常非常错误。

所以问题不是“20newsgroup-18828出了什么问题”而是“原始数据集有什么问题”。

一般想法

首先，你为什么认为出了什么问题？您在非常小的（每类70个训练向量）数据集上执行非常随意的数据表示处理方法（两个不同的降维步骤）。这些数据没有任何问题，这是一个简单的NLP数据，因为大多数NLP任务需要大量数据，而且“天真”（不是基于NLP）维数降低技术无法保证真正提供帮助。

，即使你做错了，在90％的操作案例（任意高数字）中，错误在用户认为他做了什么，以及他实际做了什么之间。因此，描述你所做的事情不会带来任何帮助，你必须显示你的确切行为（通过给出一个可重复的例子）。

20newsgroup-18828数据集有什么问题？

1 个答案:

关于数据集之间的差异

一般想法