opencl - OpenCL浮点精度管理

我正在尝试在实习期间在GPU上并行化对象本地化算法。但OpenCL最大浮点精度变得非常棘手。

参考算法始终使用双精度实现，特别是对于SVM分类器和描述符。我的单精度实现导致错误。我检查了我的标准化错误，并且在程序的几个点（10 ^ -6）得到了我的预期。

然而，在该过程的分类步骤之后，这些错误变得更加重要。

有没有办法用GPU支持单精度来模拟双精度值？

PS：我可以在我的GPU（Nvidia GTS450）上使用双精度，但该程序将在几个平台上进行测试，功耗更低，这可能意味着没有双精度。