我有一个50,000,000行的数据文件,需要使用Java来引导每一行。 现在我使用Math.random()生成随机数,然后以强力方式进行自举。但是,它将永远带我。所以我想知道是否有任何Java库帮助有效地执行此操作,还是应该在Java中调用其他语言?无论如何,我的目标是优化整个过程。谢谢!
答案 0 :(得分:0)
如果整个数据集适合内存(在典型的高端笔记本电脑上可能是可行的,例如8 GB的RAM,假设文件的各行不会太长)那么你可以使用来自Weka的Resample
java类。 Resample
类同时包含supervised和unsupervised版本。您可以下载Weka here。