标签: parallel-processing gpu pytorch
我需要将用户定义的函数应用于cuda张量的所有字符串。由于该功能占用了很少的GPU资源,但是我想花费大量时间来同时将该功能应用于多个字符串以加快计算速度。不同字符串的计算可能会花费明显不同的时间。最有效的方法是什么?