Question

我暂时看了一下Forth编程语言。是否可以在Forth中使用同步原语进行多线程处理？

例如，是否可以在Forth中使用多个线程进行n×n矩阵乘法？如果是这样，基本机制或编程模式是什么？

Answer 1

对于规定的目标，多线程必须先发制人。 Simple Forths有一个执行任务的PAUSE-ing任务循环一个接一个，从不重叠。令人惊讶的有用但不是在这种情况下。

现代，专业，Forth可以做多线程，但我知道只有一个有特殊原语，以使其更容易。

前面给出的示例矩阵乘法不是演示多线程。

据我所知（*），只有iForth编译器才有特殊的多线程原语（基于OCCAM），并提供了真正运行x倍速的示例在n核处理器上（其中x

0 VALUE jj 

: mmul2 ( F: -- r )
    a3 /size DFLOATS ERASE
    /rsz 0 DO  
           I TO jj
           PAR
             STARTP  /rsz 0 DO  a1 jj     /rsz * I + DFLOAT[] DF@   a2 I /rsz * DFLOAT[]   a3 jj     /rsz * DFLOAT[]  /rsz DAXPY_sse2   LOOP ENDP 
             STARTP  /rsz 0 DO  a1 jj 1+  /rsz * I + DFLOAT[] DF@   a2 I /rsz * DFLOAT[]   a3 jj 1+  /rsz * DFLOAT[]  /rsz DAXPY_sse2   LOOP ENDP 
             STARTP  /rsz 0 DO  a1 jj 2+  /rsz * I + DFLOAT[] DF@   a2 I /rsz * DFLOAT[]   a3 jj 2+  /rsz * DFLOAT[]  /rsz DAXPY_sse2   LOOP ENDP 
             STARTP  /rsz 0 DO  a1 jj 3 + /rsz * I + DFLOAT[] DF@   a2 I /rsz * DFLOAT[]   a3 jj 3 + /rsz * DFLOAT[]  /rsz DAXPY_sse2   LOOP ENDP
             STARTP  /rsz 0 DO  a1 jj 4 + /rsz * I + DFLOAT[] DF@   a2 I /rsz * DFLOAT[]   a3 jj 4 + /rsz * DFLOAT[]  /rsz DAXPY_sse2   LOOP ENDP
             STARTP  /rsz 0 DO  a1 jj 5 + /rsz * I + DFLOAT[] DF@   a2 I /rsz * DFLOAT[]   a3 jj 5 + /rsz * DFLOAT[]  /rsz DAXPY_sse2   LOOP ENDP
             STARTP  /rsz 0 DO  a1 jj 6 + /rsz * I + DFLOAT[] DF@   a2 I /rsz * DFLOAT[]   a3 jj 6 + /rsz * DFLOAT[]  /rsz DAXPY_sse2   LOOP ENDP
             STARTP  /rsz 0 DO  a1 jj 7 + /rsz * I + DFLOAT[] DF@   a2 I /rsz * DFLOAT[]   a3 jj 7 + /rsz * DFLOAT[]  /rsz DAXPY_sse2   LOOP ENDP
           ENDPAR
      8 +LOOP 
    0e  a3 /size 0 ?DO  DF@+ F+  LOOP DROP ;

对于1024 x 1024矩阵，此（mmul2）比单线程版本（mmul1）快两倍。

FORTH> TESTS
DOT/AXPY using 64 bits floats.
Vector size = 1048576
mul0 (dot)         :  6.8719411200000000000e+0013 0.133 seconds elapsed.
mul1 (dot_sse2)    :  6.8719411200000000000e+0013 0.106 seconds elapsed.
mmul0 (axpy)       :  5.6294941655040000004e+0014 0.981 seconds elapsed.
mmul1 (axpy_sse2)  :  5.6294941655040000004e+0014 0.400 seconds elapsed.
mmul2 (Paxpy_sse2) :  5.6294941655040000004e+0014 0.114 seconds elapsed. ok

（*）有传言说MPE和Forth Inc最近加入了类似的功能。

Answer 2

任何可以进行多任务处理的Forth也可以进行多线程处理。（他们是在应用程序中也是如此。）几乎所有的Forth现在都能做到。

您可以执行以下操作：

include fsl-util.f

 3 3 float matrix A{{
 A{{ 3 3 }}fread  1e 2e 3e  4e 5e 6e  7e 8e 9e
 3 3 float matrix B{{
 B{{ 3 3 }}fread  3e 3e 3e  2e 2e 2e  1e 1e 1e
 3 3 float matrix C{{    \ result

 A{{ B{{ C{{ mat*
 C{{ }}print

Answer 3

目前，Forth标准并未指定任何多线程或多任务相关的单词。虽然，许多历史悠久的Forth实现都有这样的原语，或允许使用Forth-assembler或API来定义它们到底层系统。

例如，同步原语和multithreading in SP-Forth/4大多只是Windows和Linux（pthreads）API上的通用包装。

请注意，应该使用线程池为小型操作提供更好的性能 - 因为创建/销毁线程可能会耗费大量时间。

使用SSE operations甚至GPU（参见gpu.js for example）也可以实现n×n矩阵乘法获得更好的增益。

无论如何，解决方案取决于特定的Forth系统。

示例（概念模型）

使用矩阵和线程池库，矩阵乘法可能如下所示：

\ matrices vocabulary is in the context.

slot-enum{ m1 m2 m3 tp }slot-enum

: calc-item { r c -- }
  0e  m1 columns 0 do
    r i m1 item
    i c m2 item
    F* F+
  loop  r c m3 item!
;
: mult-matrix ( a b c -- ) \ c = a * b 
  m3! m2! m1!
  \ m3 dimenisions should be m1 rows x m2 columns 
  threadpool::new-group tp!
  m1 rows 0 do m2 columns 0 do
    i j 2 'calc-item tp threadpool::run
  loop
  tp threadpool::join
  tp threadpool::free
;

Forth支持多线程吗？

3 个答案:

示例（概念模型）