标签: machine-learning scikit-learn named-entity-recognition document-classification crf
我的目标是提供一组文件(主要是在金融领域),我们需要识别它的具体部分,如公司名称或文件类型等。
假设培训是在100个文件的拼音上完成的。显然我会有一个偏斜的类分布(在99.9%的例子中,None占主导地位)。 我计划使用CRF(Sklearn上的CRFsuite),并且已经完成了必要的文献。我需要在以下方面提出一些建议:
数据集是否足以训练CRF?考虑到每个文档可以分成大约100个令牌(每个令牌是一个训练实例),我们总共会得到10000个实例。
答案 0 :(得分:1)