ColumnDataClassifier的最大类数

时间:2018-03-27 18:10:10

标签: classification stanford-nlp text-classification

使用ColumnDataClassifier时可以拥有的最大类数是否有限制?我有关于我想要分配给10k组织的地址,但即使我将-xmx数设置为最大值,我仍然遇到内存问题。

1 个答案:

答案 0 :(得分:0)

标签集的大小没有明确的限制,但10k是一个非常大的集合,我对你的内存问题并不感到惊讶。您应该尝试使用尺寸更小的标签集(约100个标签)进行一些实验,看看您的问题是否消失。我不知道有多少标签会起作用,但我怀疑它有近10,000的标签。我会尝试使用更小的集合来了解标签集大小增长时内存使用量的增长情况。

您可能必须拥有标签和不同分类器的层次结构。你可以想象第一个标签是"加利福尼亚组织",然后有第二个分类器来选择各种加州组织等...