我正在处理财务报告/文档的文档分类问题。这是否有现成的语料库?我找到了几个用例,但他们都创建了自己的语料库。
答案 0 :(得分:5)
您很可能必须创建自己的语料库。我有类似的任务,手动创建这样的语料库太繁琐了。因此,我创建了News Corpus Builder一个python模块,允许您根据自己特定的主题兴趣快速开发语料库。
该模块允许您生成自己的语料库,并将文本和相关标签存储在sqlite或平面文件中。
from news_corpus_builder import NewsCorpusGenerator
# Location to save generated corpus
corpus_dir = '/Users/skillachie/finance_corpus'
# Save results to sqlite or files per article
ex = NewsCorpusGenerator(corpus_dir,'sqlite')
# Retrieve 50 links related to the search term dogs and assign a category of Pet to the retrieved links
links = ex.google_news_search('dogs','Pet',50)
# Generate and save corpus
ex.generate_corpus(links)
有关blog
的详细信息财务语料库可供下载here。语料库有以下类别: