纸船格式在ML性能优化中的优势是什么?

时间:2015-05-29 14:53:45

标签: optimization machine-learning dataset

paperBoat格式声称为机器学习例程提供了更好的数据集表示。我想了解其优化的本质。我理解使用模型属性的整数表示意味着更快地处理数据集,还有哪些其他改进。

此外,如何调整ML算法以使用此文件格式。

1 个答案:

答案 0 :(得分:1)

我不知道这种格式是否能真正提供更好的表现形式,但我可以推测为什么它可以更有效率。

首先,正如他们在格式描述中所述,"具有相同精度的数据连续启用硬件矢量化。&#34 ;;还要考虑wikipedia:"矢量处理技术已被添加到几乎所有现代CPU设计中#34;。

其次,它们的格式允许您混合稀疏和非稀疏特征,但由于所有稀疏特征都被放置,因此可以轻松地将它们作为sparse matrix并优化学习方法,如共轭梯度。

  

如何调整ML算法以使用此文件格式?

ML算法调整是什么意思?学习算法不知道并且不需要知道关于数据集的文件格式的任何信息;如果您知道文件格式,则无法提高或降低准确性。从理论上讲,你可以加速具体的优化算法(比如渐变下降),如果你可以依赖于数据的某些属性(我猜,Ismion PaperBoat会这样做),但我不认为你可以调整它你自己。