paperBoat格式声称为机器学习例程提供了更好的数据集表示。我想了解其优化的本质。我理解使用模型属性的整数表示意味着更快地处理数据集,还有哪些其他改进。
此外,如何调整ML算法以使用此文件格式。
答案 0 :(得分:1)
我不知道这种格式是否能真正提供更好的表现形式,但我可以推测为什么它可以更有效率。
首先,正如他们在格式描述中所述,"具有相同精度的数据连续启用硬件矢量化。&#34 ;;还要考虑wikipedia:"矢量处理技术已被添加到几乎所有现代CPU设计中#34;。
其次,它们的格式允许您混合稀疏和非稀疏特征,但由于所有稀疏特征都被放置,因此可以轻松地将它们作为sparse matrix并优化学习方法,如共轭梯度。
如何调整ML算法以使用此文件格式?
ML算法调整是什么意思?学习算法不知道并且不需要知道关于数据集的文件格式的任何信息;如果您知道文件格式,则无法提高或降低准确性。从理论上讲,你可以加速具体的优化算法(比如渐变下降),如果你可以依赖于数据的某些属性(我猜,Ismion PaperBoat会这样做),但我不认为你可以调整它你自己。