NLTK的路透社中的类别是什么意思

时间:2014-08-05 08:20:22

标签: python nlp nltk corpus

我在进行文字主题分类时遇到了问题。

我在NLTK“路透社”语料库中获得了数据。

然而,当我尝试“reuters.categories()”

结果是

['acq','alum','barley','bop','carcass','castor-oil','cocoa','椰子','椰子油','咖啡','铜','椰饼','玉米','棉花','棉花','cpi','cpu','原油','dfl','dlr','dmk','赚', '燃料','天然气','gnp','黄金','谷物','花生','花生油','热','猪','住房','收入','安装 - 债务','兴趣','ipi','铁钢','喷气','工作','l-cattle','铅','lei','lin-oil','牲畜','木材','膳食','钱-fx','货币供应','石脑油','天然气','镍','nkr','nzdlr','燕麦','油籽', 'orange','palladium','palm-oil','palmkernel','pet-chem','platinum','potato','propane','rand','rape-oil','rapeseed', '储备','零售','大米','橡胶','黑麦','船','银','高粱','豆粕','大豆油','大豆','战略' -metal','sugar','sun-meal','sun-oil','sunseed','tea','tin','trade','veg-oil','wheat','wpi', '日元','锌']

我几乎不知道每个人的意思,我能找到一些解释吗?

1 个答案:

答案 0 :(得分:1)

NLTK语料库API中有关路透社语料库的信息:

  • The Reuters-21578" ApteMod"语料库是为文本分类而构建的。

  • ApteMod是来自路透社的10,788份文件的集合 财经新闻专线服务

  • 在ApteMod语料库中,每个文档属于一个或多个类别。语料库中有90个类别。

可以在~/nltk_data/corpora/reuters/cats.txt

中找到fileids到类别的映射
from os.path import expanduser
from collections import defaultdict
from nltk.corpus import reuters

home = expanduser("~")
id2cat = defaultdict(list)

for line in open(home+'/nltk_data/corpora/reuters/cats.txt','r'):
    fid, _, cats = line.partition(' ')
    id2cat[fid] = cats.split()

for fileid in reuters.fileids():
    for sent in reuters.sents(fileid):
        print id2cat[fileid], sent

[OUT]:

['trade'] ['ASIAN', 'EXPORTERS', 'FEAR', 'DAMAGE', 'FROM', 'U', '.', 'S', '.-', 'JAPAN', 'RIFT', 'Mounting', 'trade', 'friction', 'between', 'the', 'U', '.', 'S', '.', 'And', 'Japan', 'has', 'raised', 'fears', 'among', 'many', 'of', 'Asia', "'", 's', 'exporting', 'nations', 'that', 'the', 'row', 'could', 'inflict', 'far', '-', 'reaching', 'economic', 'damage', ',', 'businessmen', 'and', 'officials', 'said', '.']
...

您可以在此文件中找到有关类别的信息:~/nltk_data/corpora/reuters/README

  The Reuters-21578 benchmark corpus, ApteMod version
     

这是众所周知的Reuters-21578的公开版本   " ApteMod"用于文本分类的语料库。它已被用于   这些出版物:

           

ApteMod是来自路透社财务的10,788份文件的集合   新闻专线服务,分为7769个文件的训练集   以及包含3019个文档的测试集。语料库的总大小是   大约43 MB。它也可以从下载   http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html,   其中包括更广泛的数据修订历史。

     

ApteMod语料库中的类别分布严重偏差,   有36.7%的文件属于最常见的类别,而且只有   五个最不常见类别中的每一个都有0.0185%(2个文件)。事实上,原始数据源更加歪斜---在创建中   语料库,任何不包含至少一个文档的类别   训练集和测试集中的一个文档被删除   语料库由其原始创作者。

     

在ApteMod语料库中,每个文档属于一个或多个   类别。语料库中有90个类别。平均值   每个文档的类别数是1.235,平均数是   每类文件约为148,即语料库的1.37%。

     

-Ken Williams ken@mathforum.org

     Copyright & Notification 
     

(摘自上面UCI地址的自述文件)

     

新闻专线文章和路透社的版权   Reuters-21578系列中的注释与路透社有限公司合作。   路透社有限公司和卡内基集团公司已同意免费提供   分发此数据仅用于研究目的

     

如果您根据此数据集发布结果,请确认   使用,请参考名称" Reuters-21578,Distribution的数据集   1.0",并告知读者数据集的当前位置(参见"可用性和问题")。