如何制作或获取财务文件的语料库

时间:2015-08-20 20:00:12

标签: nlp

我正在处理财务报告/文档的文档分类问题。这是否有现成的语料库?我找到了几个用例,但他们都创建了自己的语料库。

1 个答案:

答案 0 :(得分:5)

您很可能必须创建自己的语料库。我有类似的任务,手动创建这样的语料库太繁琐了。因此,我创建了News Corpus Builder一个python模块,允许您根据自己特定的主题兴趣快速开发语料库。

该模块允许您生成自己的语料库,并将文本和相关标签存储在sqlite或平面文件中。

from news_corpus_builder import NewsCorpusGenerator

# Location to save generated corpus
corpus_dir = '/Users/skillachie/finance_corpus'

# Save results to sqlite or  files per article 
ex = NewsCorpusGenerator(corpus_dir,'sqlite')

# Retrieve 50 links related to the search term dogs and assign a category of   Pet to the retrieved links
links = ex.google_news_search('dogs','Pet',50)

# Generate and save corpus
ex.generate_corpus(links)

有关blog

的详细信息

财务语料库可供下载here。语料库有以下类别:

  • 政策(许可证,监管,证券交易委员会,货币,美联储,货币,财政,国际货币基金组织)
  • 国际金融(全球金融,国际货币基金组织,欧洲央行,希腊问题,人民币贬值)
  • 经济(GDP,就业,失业,住房,经济)筹集资本(ipo,股权)
  • 房地产
  • 合并&收购(合并,收购)
  • 石油(石油,石油价格,天然气价格)
  • 商品(商品,黄金,白银)
  • 欺诈(内幕交易,庞氏骗局,金融诈骗)
  • 诉讼(公司诉讼,公司和解)
  • 收入报告