标签: cuda benchmarking latency
即使this问题类似于我的问题,但仍然没有针对不同类型的已发布延迟值。我很欣赏实际测量以及他们的方法的方法和推理的解释。任何支持CUDA的离散NVidia卡都是理想的。
需要衡量的事项:
注册
共享内存
常量缓存命中
设备内存
全球记忆
答案 0 :(得分:3)
This paper几乎是CUDA GPU的黄金标准基准测试示例。它使用Tesla C1060 / GTX 285“GT200”级GPU,通过非常彻底的微基准测试,显示您感兴趣的大部分信息。