我有一个svmlight格式的文件,其值为:
92.91 18256731:1 71729421:1 72329637:1 83328561:1 118265976:1 134892759:1 198163358:1 352348616:1 526943048:1
5.30 102156934:1 134892759:1 198163358:1 254112843:1 262373758:1 512748316:1 526943048:1
22.00 32172600:1 72329637:1 118265976:1 134892759:1 198163358:1 411824213:1 443226486:1 445371412:1 526943048:1
我正在尝试使用h2o.import_file(fname.svmlight)
h2o是否支持高维稀疏二进制特征?
我是否需要转换某些索引中的散列值才能使其生效?
答案 0 :(得分:0)
你的三行svmlight就像一个病毒!根据{{1}},java进程可以获得接近800%的CPU(8核机器)。经过45米的CPU工作(5-6分钟的挂钟)后,我不得不使用top
来恢复我的机器。
即使您的文件类型没有得到官方支持,我认为它会导致计算机崩溃,这也是一个严重的错误,所以我在此处报告了这一点:https://0xdata.atlassian.net/browse/PUBDEV-4798
顺便说一下,你可以在这里找到一个显示smvlight使用情况的单元测试: https://github.com/h2oai/h2o-3/blob/30f382efac687be3959a253d975cb48c341c92b4/h2o-r/tests/testdir_misc/runit_parser_type.R