我在进行文字主题分类时遇到了问题。
我在NLTK“路透社”语料库中获得了数据。
然而,当我尝试“reuters.categories()”
时结果是
['acq','alum','barley','bop','carcass','castor-oil','cocoa','椰子','椰子油','咖啡','铜','椰饼','玉米','棉花','棉花','cpi','cpu','原油','dfl','dlr','dmk','赚', '燃料','天然气','gnp','黄金','谷物','花生','花生油','热','猪','住房','收入','安装 - 债务','兴趣','ipi','铁钢','喷气','工作','l-cattle','铅','lei','lin-oil','牲畜','木材','膳食','钱-fx','货币供应','石脑油','天然气','镍','nkr','nzdlr','燕麦','油籽', 'orange','palladium','palm-oil','palmkernel','pet-chem','platinum','potato','propane','rand','rape-oil','rapeseed', '储备','零售','大米','橡胶','黑麦','船','银','高粱','豆粕','大豆油','大豆','战略' -metal','sugar','sun-meal','sun-oil','sunseed','tea','tin','trade','veg-oil','wheat','wpi', '日元','锌']
我几乎不知道每个人的意思,我能找到一些解释吗?
答案 0 :(得分:1)
NLTK
语料库API中有关路透社语料库的信息:
The Reuters-21578" ApteMod"语料库是为文本分类而构建的。
ApteMod是来自路透社的10,788份文件的集合 财经新闻专线服务
在ApteMod语料库中,每个文档属于一个或多个类别。语料库中有90个类别。
可以在~/nltk_data/corpora/reuters/cats.txt
from os.path import expanduser
from collections import defaultdict
from nltk.corpus import reuters
home = expanduser("~")
id2cat = defaultdict(list)
for line in open(home+'/nltk_data/corpora/reuters/cats.txt','r'):
fid, _, cats = line.partition(' ')
id2cat[fid] = cats.split()
for fileid in reuters.fileids():
for sent in reuters.sents(fileid):
print id2cat[fileid], sent
[OUT]:
['trade'] ['ASIAN', 'EXPORTERS', 'FEAR', 'DAMAGE', 'FROM', 'U', '.', 'S', '.-', 'JAPAN', 'RIFT', 'Mounting', 'trade', 'friction', 'between', 'the', 'U', '.', 'S', '.', 'And', 'Japan', 'has', 'raised', 'fears', 'among', 'many', 'of', 'Asia', "'", 's', 'exporting', 'nations', 'that', 'the', 'row', 'could', 'inflict', 'far', '-', 'reaching', 'economic', 'damage', ',', 'businessmen', 'and', 'officials', 'said', '.']
...
您可以在此文件中找到有关类别的信息:~/nltk_data/corpora/reuters/README
:
The Reuters-21578 benchmark corpus, ApteMod version
这是众所周知的Reuters-21578的公开版本 " ApteMod"用于文本分类的语料库。它已被用于 这些出版物:
杨一鸣和X.刘。 "重新检查文本分类
方法&#34 ;. 1999.第22届国际SIGIR会议记录 http://citeseer.nj.nec.com/yang99reexamination.htmlThorsten Joachims。 "带支持向量的文本分类
机器:学习许多相关功能"。 1998.诉讼程序
ECML-98,第10届欧洲机器学习会议 http://citeseer.nj.nec.com/joachims98text.htmlApteMod是来自路透社财务的10,788份文件的集合 新闻专线服务,分为7769个文件的训练集 以及包含3019个文档的测试集。语料库的总大小是 大约43 MB。它也可以从下载 http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html, 其中包括更广泛的数据修订历史。
ApteMod语料库中的类别分布严重偏差, 有36.7%的文件属于最常见的类别,而且只有 五个最不常见类别中的每一个都有0.0185%(2个文件)。事实上,原始数据源更加歪斜---在创建中 语料库,任何不包含至少一个文档的类别 训练集和测试集中的一个文档被删除 语料库由其原始创作者。
在ApteMod语料库中,每个文档属于一个或多个 类别。语料库中有90个类别。平均值 每个文档的类别数是1.235,平均数是 每类文件约为148,即语料库的1.37%。
-Ken Williams ken@mathforum.org
Copyright & Notification
(摘自上面UCI地址的自述文件)
新闻专线文章和路透社的版权 Reuters-21578系列中的注释与路透社有限公司合作。 路透社有限公司和卡内基集团公司已同意免费提供 分发此数据仅用于研究目的。
如果您根据此数据集发布结果,请确认 使用,请参考名称" Reuters-21578,Distribution的数据集 1.0",并告知读者数据集的当前位置(参见"可用性和问题")。