我正在尝试在Tesla C2075上为Polygon Intersection运行一个算法。但是当我尝试编译这个算法时,编译器给了我错误:"Entry Function 'Polygon_Intersection'uses too much local data(0x40e8 bytes,0x4000)
。
我的算法有点复杂,它在内核中使用了大量的局部变量。 所以我的问题是,有没有办法解决这个问题,比如我可以为每个内核使用全局内存进行局部变量声明,还是以某种方式使用共享内存?
答案 0 :(得分:2)
使用-arch=sm_20
进行编译以启用设备端malloc
,以便您可以将堆内存用于线程本地数据。