使用CoreNLP ColumnDataClassifier进行大型语料库的文档分类

时间:2017-03-01 15:35:12

标签: document-classification stanford-nlp

我尝试使用CoreNLP ColumnDataClassifier对大量文档进行分类。我有超过100万份文件,大约有20000个标签。

这在内存要求方面是否可行? (我目前只有16GB)

是否有可能以迭代的方式训练分类器,将输入分成许多较小的文件?

1 个答案:

答案 0 :(得分:0)

作为一项实验我跑了:

1.) 500,000 documents, each with 100 random words
2.) a label set of 10,000

即使我给它40 GB的RAM,也会因内存错误而崩溃。

我也跑了:

1.) same 500,000 documents
2.) a label set of 6

使用16 GB的RAM成功完成了这项工作。

我不确定标签集的增长会导致崩溃,但我的建议是缩小可能的标签集和实验。