Question

我在进行文字主题分类时遇到了问题。

我在NLTK“路透社”语料库中获得了数据。

然而，当我尝试“reuters.categories（）”

时

结果是

['acq'，'alum'，'barley'，'bop'，'carcass'，'castor-oil'，'cocoa'，'椰子'，'椰子油'，'咖啡'，'铜'，'椰饼'，'玉米'，'棉花'，'棉花'，'cpi'，'cpu'，'原油'，'dfl'，'dlr'，'dmk'，'赚'， '燃料'，'天然气'，'gnp'，'黄金'，'谷物'，'花生'，'花生油'，'热'，'猪'，'住房'，'收入'，'安装 - 债务'，'兴趣'，'ipi'，'铁钢'，'喷气'，'工作'，'l-cattle'，'铅'，'lei'，'lin-oil'，'牲畜'，'木材'，'膳食'，'钱-fx'，'货币供应'，'石脑油'，'天然气'，'镍'，'nkr'，'nzdlr'，'燕麦'，'油籽'， 'orange'，'palladium'，'palm-oil'，'palmkernel'，'pet-chem'，'platinum'，'potato'，'propane'，'rand'，'rape-oil'，'rapeseed'， '储备'，'零售'，'大米'，'橡胶'，'黑麦'，'船'，'银'，'高粱'，'豆粕'，'大豆油'，'大豆'，'战略' -metal'，'sugar'，'sun-meal'，'sun-oil'，'sunseed'，'tea'，'tin'，'trade'，'veg-oil'，'wheat'，'wpi'， '日元'，'锌']

我几乎不知道每个人的意思，我能找到一些解释吗？

Answer 1

NLTK语料库API中有关路透社语料库的信息：

The Reuters-21578＆＃34; ApteMod＆＃34;语料库是为文本分类而构建的。
ApteMod是来自路透社的10,788份文件的集合财经新闻专线服务
在ApteMod语料库中，每个文档属于一个或多个类别。语料库中有90个类别。

可以在~/nltk_data/corpora/reuters/cats.txt

中找到fileids到类别的映射

from os.path import expanduser
from collections import defaultdict
from nltk.corpus import reuters

home = expanduser("~")
id2cat = defaultdict(list)

for line in open(home+'/nltk_data/corpora/reuters/cats.txt','r'):
    fid, _, cats = line.partition(' ')
    id2cat[fid] = cats.split()

for fileid in reuters.fileids():
    for sent in reuters.sents(fileid):
        print id2cat[fileid], sent

[OUT]：

['trade'] ['ASIAN', 'EXPORTERS', 'FEAR', 'DAMAGE', 'FROM', 'U', '.', 'S', '.-', 'JAPAN', 'RIFT', 'Mounting', 'trade', 'friction', 'between', 'the', 'U', '.', 'S', '.', 'And', 'Japan', 'has', 'raised', 'fears', 'among', 'many', 'of', 'Asia', "'", 's', 'exporting', 'nations', 'that', 'the', 'row', 'could', 'inflict', 'far', '-', 'reaching', 'economic', 'damage', ',', 'businessmen', 'and', 'officials', 'said', '.']
...

您可以在此文件中找到有关类别的信息：~/nltk_data/corpora/reuters/README：

  The Reuters-21578 benchmark corpus, ApteMod version
这是众所周知的Reuters-21578的公开版本   ＆＃34; ApteMod＆＃34;用于文本分类的语料库。它已被用于   这些出版物：



杨一鸣和X.刘。＆＃34;重新检查文本分类
  方法＆＃34 ;. 1999.第22届国际SIGIR会议记录   http://citeseer.nj.nec.com/yang99reexamination.html



Thorsten Joachims。＆＃34;带支持向量的文本分类
  机器：学习许多相关功能＆＃34;。 1998.诉讼程序
  ECML-98，第10届欧洲机器学习会议   http://citeseer.nj.nec.com/joachims98text.html



ApteMod是来自路透社财务的10,788份文件的集合   新闻专线服务，分为7769个文件的训练集   以及包含3019个文档的测试集。语料库的总大小是   大约43 MB。它也可以从下载   http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html，   其中包括更广泛的数据修订历史。

ApteMod语料库中的类别分布严重偏差，   有36.7％的文件属于最常见的类别，而且只有   五个最不常见类别中的每一个都有0.0185％（2个文件）。事实上，原始数据源更加歪斜---在创建中   语料库，任何不包含至少一个文档的类别   训练集和测试集中的一个文档被删除   语料库由其原始创作者。

在ApteMod语料库中，每个文档属于一个或多个   类别。语料库中有90个类别。平均值   每个文档的类别数是1.235，平均数是   每类文件约为148，即语料库的1.37％。

-Ken Williams ken@mathforum.org
     Copyright & Notification 
（摘自上面UCI地址的自述文件）

新闻专线文章和路透社的版权   Reuters-21578系列中的注释与路透社有限公司合作。   路透社有限公司和卡内基集团公司已同意免费提供   分发此数据仅用于研究目的。

如果您根据此数据集发布结果，请确认   使用，请参考名称＆＃34; Reuters-21578，Distribution的数据集   1.0＆＃34;，并告知读者数据集的当前位置（参见＆＃34;可用性和问题＆＃34;）。

NLTK的路透社中的类别是什么意思

1 个答案: