我尝试使用CoreNLP ColumnDataClassifier对大量文档进行分类。我有超过100万份文件,大约有20000个标签。
这在内存要求方面是否可行? (我目前只有16GB)
是否有可能以迭代的方式训练分类器,将输入分成许多较小的文件?
答案 0 :(得分:0)
作为一项实验我跑了:
1.) 500,000 documents, each with 100 random words
2.) a label set of 10,000
即使我给它40 GB的RAM,也会因内存错误而崩溃。
我也跑了:
1.) same 500,000 documents
2.) a label set of 6
使用16 GB的RAM成功完成了这项工作。
我不确定标签集的增长会导致崩溃,但我的建议是缩小可能的标签集和实验。