使用英特尔数学核心库进行特征分解的运行时问题

时间:2014-07-18 06:50:47

标签: c++ visual-studio intel-mkl

在C ++中进行特征分解,我使用例程“zhpev”。此例程嵌入在较大软件的dll文件中,并在运行时期间用尽。在~5000次“zhpev”调用后,我测量了运行时间。对于前900次运行时评估,一切都很好。运行时间约为0.7秒,变化不大。然而,900次运行时评估,运行时间突然从0.7秒增加到2.7秒,且变化很大。

我做了以下观察:

  • 运行时问题独立于“zhpev”的输入数据。
  • 例程“zhpev”在小程序中运行良好且稳定。似乎与其他部分的互动会带来麻烦。
  • 用另一个特殊分解程序替换“zhpev”后,一切运行顺畅,运行时间变化不大。
  • 使用和不使用多线程时会出现运行时问题。
  • 我不使用动态内存分配。所有变量都被分配为静态变量。
  • 问题类似于Visual C++ function suddenly 170 ms slower (4x longer),但是,我无法在代码中检测到任何内存泄漏。

很抱歉,由于我正在使用的项目太大,我无法发布任何代码。

我很感激能帮助我阻止这种奇怪行为的任何暗示!

修改 例程“zhpev”适用于复杂的Hermitian矩阵,其大小为32x32,精度为double。因此,一次处理的数据块相当小。

更新 1)分页不是问题所在。我在系统选项中禁用了分页文件。运行时问题仍未解决。 2)在不同的Windows计算机上运行应用程序也会导致相同的运行时问题。但是,运行时间增加的开始现在在1400运行时评估之后发生。

更新 我发现只有在线程内部调用“zhpev”时才会出现运行时问题。有了这个,我可以创建一个小代码示例,我遇到了同样的问题。

让我解释一下我的代码

这是我的代码

#include <windows.h>
#include <tchar.h>
#include <strsafe.h>
#include "stdafx.h"
#include "mkl_lapack.h"
#include "mkl_service.h"
#include <time.h>
#include <stdio.h>
#include <iostream>
#include <fstream>
#include <stdlib.h>
#include <iostream> 

using namespace std;
#define CACHE_LINE  32
#define CACHE_ALIGN __declspec(align(CACHE_LINE))

#define MAX_THREADS 2
#define BUF_SIZE 255

DWORD WINAPI MyThreadFunction( LPVOID lpParam );
void ErrorHandler(LPTSTR lpszFunction);

// !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
// This is the critical function.
void Eigendecomposition();
// !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

typedef struct MyData {
    int val1;
    int val2;
} MYDATA, *PMYDATA;



int _tmain()
{
    PMYDATA pDataArray[MAX_THREADS];
    DWORD   dwThreadIdArray[MAX_THREADS];
    HANDLE  hThreadArray[MAX_THREADS]; 

    std::ofstream ofs;

    double tstart;
    double tend;

    double proc_time_pure;

    for(int j=0;j<10000;j++){

    // Start one iteration
    tstart = clock(); 



    // Create MAX_THREADS worker threads.

    for( int i=0; i<MAX_THREADS; i++ )
    {


        pDataArray[i] = (PMYDATA) HeapAlloc(GetProcessHeap(), HEAP_ZERO_MEMORY,
                sizeof(MYDATA));

        if( pDataArray[i] == NULL )
        {

            ExitProcess(2);
        }



        pDataArray[i]->val1 = i;
        pDataArray[i]->val2 = i+100;

        // Create the thread to begin execution on its own.

        hThreadArray[i] = CreateThread( 
            NULL,                   // default security attributes
            0,                      // use default stack size  
            MyThreadFunction,       // thread function name
            pDataArray[i],          // argument to thread function 
            0,                      // use default creation flags 
            &dwThreadIdArray[i]);   // returns the thread identifier 




        if (hThreadArray[i] == NULL) 
        {
           ErrorHandler(TEXT("CreateThread"));
           ExitProcess(3);
        }
    } // End of main thread creation loop.

    // Wait until all threads have terminated.

    WaitForMultipleObjects(MAX_THREADS, hThreadArray, TRUE, INFINITE);



    for(int i=0; i<MAX_THREADS; i++)
    {
        CloseHandle(hThreadArray[i]);
        if(pDataArray[i] != NULL)
        {
            HeapFree(GetProcessHeap(), 0, pDataArray[i]);
            pDataArray[i] = NULL;    // Ensure address is not reused.
        }
    }

    tend = clock();
    proc_time_pure = tend-tstart;

    // Print processing time into console and write it into a file
    printf("   Processing time: %4.3f \n", proc_time_pure/1000.0);
    ofs.open ("Processing_time.txt", std::ofstream::out | std::ofstream::app);

      ofs << proc_time_pure/1000.0 << " ";

      ofs.close();
    }
    return 0;
}


DWORD WINAPI MyThreadFunction( LPVOID lpParam ) 
{ 
    HANDLE hStdout;
    PMYDATA pDataArray;

    TCHAR msgBuf[BUF_SIZE];
    size_t cchStringSize;
    DWORD dwChars;



    hStdout = GetStdHandle(STD_OUTPUT_HANDLE);
    if( hStdout == INVALID_HANDLE_VALUE )
        return 1;



    pDataArray = (PMYDATA)lpParam;
    // !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
   // Critical function
    Eigendecomposition();
    // !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
    return 0; 
} 



void ErrorHandler(LPTSTR lpszFunction) 
{ 
    // Retrieve the system error message for the last-error code.

    LPVOID lpMsgBuf;
    LPVOID lpDisplayBuf;
    DWORD dw = GetLastError(); 

    FormatMessage(
        FORMAT_MESSAGE_ALLOCATE_BUFFER | 
        FORMAT_MESSAGE_FROM_SYSTEM |
        FORMAT_MESSAGE_IGNORE_INSERTS,
        NULL,
        dw,
        MAKELANGID(LANG_NEUTRAL, SUBLANG_DEFAULT),
        (LPTSTR) &lpMsgBuf,
        0, NULL );

    // Display the error message.

    lpDisplayBuf = (LPVOID)LocalAlloc(LMEM_ZEROINIT, 
        (lstrlen((LPCTSTR) lpMsgBuf) + lstrlen((LPCTSTR) lpszFunction) + 40) * sizeof(TCHAR)); 
    StringCchPrintf((LPTSTR)lpDisplayBuf, 
        LocalSize(lpDisplayBuf) / sizeof(TCHAR),
        TEXT("%s failed with error %d: %s"), 
        lpszFunction, dw, lpMsgBuf); 
    MessageBox(NULL, (LPCTSTR) lpDisplayBuf, TEXT("Error"), MB_OK); 

    // Free error-handling buffer allocations.

    LocalFree(lpMsgBuf);
    LocalFree(lpDisplayBuf);
}

void Eigendecomposition(){
    const int M = 32;
    typedef MKL_Complex16  double_complex;
    const char    jobz = 'V';
    const char    uplo = 'L'; // lower triangular part of input matrix is used
    const MKL_INT dim = M;
    const MKL_INT ldz = M;
    const MKL_INT LWORK = (2*M-1);
    const MKL_INT LRWORK = (3*M-2);
    MKL_INT       info = 0;


    double_complex A_H_MKL[(M*M+M)/2];

    CACHE_ALIGN double_complex       work[LWORK]; 
    CACHE_ALIGN double               rwork[LRWORK];

    double D[M];
    double_complex U[M][M];
    for(int i=0;i<500;i++ ){
    // Create the input matrix
    for (int tmp=0; tmp < (M*M+M)/2; tmp++){
        A_H_MKL[tmp].real = 1  ;
        A_H_MKL[tmp].imag = 0;}

    // This is the mkl function
        zhpev(&jobz,                                // const char* jobz,
          &uplo,                                // const char* uplo,
          &dim,                                 // const MKL_INT* n,
          (double_complex *)&A_H_MKL[0],        // double_complex* ap,
          (double *)&D[0],                      // double* w,
          (double_complex *)&U[0][0],           // double_complex* z,
          &ldz,                                 // const MKL_INT* ldz,
          work,                                 // double_complex* work,
          rwork,                                // double* rwork,
          &info);                               // MKL_INT* info


}
}

3 个答案:

答案 0 :(得分:0)

因为我缺乏细节,所以我只能尝试给出一般答案。我已经在我的评论中提到内存碎片可能导致更长的运行时间周期。同样,缓存可能会成为软件执行过程中的瓶颈。您的应用程序的其他部分如何运作?他们还会大量处理数据吗?

Stackoverflowers已经在许多线程中讨论过缓存主题。阅读例如What is cache friendly code。我认为有些帖子非常有用,可能会帮助您理解您的问题。

答案 1 :(得分:0)

正如诺曼纽斯已经说过的,如果没有真正看到你的代码和zhpev的实现,很难猜出可能是什么问题。但是,除了内存碎片和缓存问题之外,问题可能与Hermitian矩阵的属性有关。

从我所读到的关于zhpev的内容来看,毫无疑问它是基于一些迭代的数值分析方法。因此,根据所使用方法的属性,zhpev收敛所需的时间(迭代次数)可能会根据输入矩阵的属性而变化很大。

其他矩阵属性的原因可能是zhpev手头有几种数值方法,并且基于输入矩阵分析,它选择能够最好地利用它的属性来更快地计算它。

您声明输入数据对性能问题没有影响,但是您能确定吗?在计算过程中,你的Hermitian矩阵不会以某种方式发展吗?是否可以在每次使用相同的矩阵并比较结果时间的同时获取zhpev以及实际的特征值计算? (当然,你需要确保它不会被优化)

答案 2 :(得分:0)

我在代码中发现了这个错误。我在使用windows函数CreatThread创建的线程中运行eigendecomposition例程。但是,没有函数来结束线程,例如WaitForMultipleObjects-routine。对于我的应用程序的所有其他部分,这不是问题,但特征分解遇到困难。