我目前正在朱莉娅写一个数值求解器。我不认为它背后的数学太重要了。这一切都归结为这样一个事实:特定的操作被执行了几次并且占用了大部分(约80%)的运行时间。
我尝试尽可能地减少它并向您展示这段代码,可以将其保存为dummy.jl
,然后通过include("dummy.jl")
执行,然后执行dummy(10)
(用于编译)然后是dummy(1000)
。
function dummy(N::Int64)
A = rand(N,N)
@time timethis(A)
end
function timethis(A::Array{Float64,2})
dummyvariable = 0.0
for k=1:100 # just repeat a few times
for i=2:size(A)[1]-1
for j=2:size(A)[2]-1
dummyvariable += slopefit(A[i-1,j],A[i,j],A[i+1,j],2.0)
dummyvariable += slopefit(A[i,j-1],A[i,j],A[i,j+1],2.0)
end
end
end
println(dummyvariable)
end
@inline function minmod(x::Float64, y::Float64)
return sign(x) * max(0.0, min(abs(x),y*sign(x) ) );
end
@inline function slopefit(left::Float64,center::Float64,right::Float64,theta::Float64)
# arg=ccall((:minmod,"libminmod"),Float64,(Float64,Float64),0.5*(right-left),theta*(center-left));
# result=ccall((:minmod,"libminmod"),Float64,(Float64,Float64),theta*(right-center),arg);
# return result
tmp = minmod(0.5*(right-left),theta*(center-left));
return minmod(theta*(right-center),tmp);
#return 1.0
end
在这里,timethis
应该模仿我花费大量时间的代码部分。我注意到,slopefit
执行起来非常昂贵。
例如,dummy(1000)
在我的机器上大约需要4秒钟。相反,slopefit
只会总是返回1
并且不会计算任何内容,时间会缩短到整个时间的十分之一。
现在,显然没有免费的午餐。
我知道,这只是一项代价高昂的操作。但是我仍然会尝试尽可能地优化它,因为花费大量时间用于看似可以轻松优化它的东西,因为它只是几行代码。
到目前为止,我尝试将minmod
和slopefit
实现为C函数并调用它们,但这只会增加计算时间(也许我做错了)。
所以我的问题是,我有什么可能优化slopefit
的调用?
注意,在实际代码中,slopefit
的参数不是这里提到的参数,而是依赖于条件语句,这使得所有内容都难以向量化(如果这会带来任何性能提升,我不确定)