在大型arff数据集文件上运行weka

时间:2014-01-27 17:26:50

标签: machine-learning nlp weka information-retrieval arff

我的arff文件包含700 entries,每个42000+ features用于NLP相关项目。现在格式是密集格式,但如果使用稀疏表示,则可以大大减少条目。 我正在core 2 duo machine with 2 GB RAM上运行,我得到memory out of range eception,尽管将限制增加到1536 MB。

如果我将arff文件转换为稀疏表示或者我是否需要在功能更强大的机器上运行我的代码,它会有什么好处吗?

1 个答案:

答案 0 :(得分:1)

根据算法的内部数据结构以及如何处理数据(递增或全部在内存中),它将需要更多内存。所以你需要的内存取决于算法。

所以稀疏表示对你来说更容易,因为它很紧凑,但是,正如我所知,算法将需要相同数量的内存来从同一数据集创建模型。输入格式应该对算法透明。