使用StanfordNLP使用许多标签和大型数据集对文本进行分类

时间:2018-10-26 20:19:15

标签: stanford-nlp

我正在使用StanfordNLP来对文本进行分类。或多或少包含在“心情”示例(mood.train)中的相同场景。

我的火车文件有超过230000行/基准。它将生成7649972个功能部件和45869832个参数(为实现此结果,必须为分类器提供18GB的空间)。

问题是我需要将这些基准分类为50个类/标签。尝试训练分类器时,我收到了OutOfMemory exception

如果我减少类/标签的数量(按照@StanfordNLPHelp的建议,减少到5个),我可以训练分类器,但是它不符合我的需求。

我有什么选择?目前,我正在使用ColumnDataClassifier。是否足够?是否可以使用StanfordNLP执行此类任务?

0 个答案:

没有答案