优化我的代码模拟数据库

时间:2011-03-22 09:26:18

标签: c++

我一直在研究一个程序,模拟一个可以进行查询的小型数据库,在编写代码后,我已经执行了它,但性能非常差。它工作得很慢。我试图改进它,但几个月前我自己开始使用C ++,所以我的知识仍然很低。所以我想找到一个提高性能的解决方案。

让我解释一下我的代码是如何工作的。在这里,我总结了一个关于我的代码如何工作的概括示例。

首先,我有一个.txt文件模拟数据库表,其中随机字符串用“|”分隔。这里有一个表格示例(包含5行和5列)。

Table.txt

0|42sKuG^uM|24465\lHXP|2996fQo\kN|293cvByiV
1|14772cjZ`SN|28704HxDYjzC|6869xXj\nIe|27530EymcTU
2|9041ByZM]I|24371fZKbNk|24085cLKeIW|16945TuuU\Nc
3|16542M[Uz\|13978qMdbyF|6271ait^h|13291_rBZS
4|4032aFqa|13967r^\\`T|27754k]dOTdh|24947]v_uzg

.txt文件中的此信息由我的程序读取并存储在计算机内存中。然后,在进行查询时,我将访问存储在计算机内存中的这些信息。将数据加载到计算机内存中可能是一个缓慢的过程,但稍后访问数据会更快,这对我来说真的很重要。

在这里,您可以获得从文件中读取此信息并存储在计算机中的部分代码。

从Table.txt文件中读取数据并将其存储在计算机内存中的代码

string ruta_base("C:\\a\\Table.txt"); // Folder where my "Table.txt" is found

string temp; // Variable where every row from the Table.txt file will be firstly stored
vector<string> buffer; // Variable where every different row will be stored after separating the different elements by tokens.
vector<ElementSet> RowsCols; // Variable with a class that I have created, that simulated a vector and every vector element is a row of my table

ifstream ifs(ruta_base.c_str());

while(getline( ifs, temp )) // We will read and store line per line until the end of the ".txt" file. 
{
    size_t tokenPosition = temp.find("|"); // When we find the simbol "|" we will identify different element. So we separate the string temp into tokens that will be stored in vector<string> buffer

    while (tokenPosition != string::npos)
    {    
        string element;
        tokenPosition = temp.find("|");      

        element = temp.substr(0, tokenPosition);
        buffer.push_back(element);
        temp.erase(0, tokenPosition+1);
    }

    ElementSet ss(0,buffer); 
    buffer.clear();
    RowsCols.push_back(ss); // We store all the elements of every row (stores as vector<string> buffer) in a different position in "RowsCols" 
}

vector<Table> TablesDescriptor;

Table TablesStorage(RowsCols);
TablesDescriptor.push_back(TablesStorage);

DataBase database(1, TablesDescriptor);

在此之后,出现重要部分。我们假设我想进行查询,并要求输入。假设我的查询是行“n”,还有连续的元组“numTuples”和列“y”。 (我们必须说列的数量由十进制数“y”定义,它将被转换为二进制并向我们显示要查询的列,例如,如果我要求列54(二进制的00110110)我将要求第2,3,5和6列。然后我访问计算机内存以获取所需信息并将其存储在vectorVector向量中。在这里,我将向您展示此代码的一部分。

在我输入时访问所需信息的代码

int n, numTuples; 
unsigned long long int y;
clock_t t1, t2;

cout<< "Write the ID of the row you want to get more information: " ;
cin>>n; // We get the row to be represented -> "n"

cout<< "Write the number of followed tuples to be queried: " ;
cin>>numTuples; // We get the number of followed tuples to be queried-> "numTuples"

cout<<"Write the ID of the 'columns' you want to get more information: ";
cin>>y; // We get the "columns" to be represented ' "y"

unsigned int r; // Auxiliar variable for the columns path
int t=0; // Auxiliar variable for the tuples path
int idTable;

vector<int> columnsToBeQueried; // Here we will store the columns to be queried get from the bitset<500> binarynumber, after comparing with a mask
vector<string> shownVector; // Vector to store the final information from the query
bitset<500> mask;
mask=0x1;

t1=clock(); // Start of the query time

bitset<500> binaryNumber = Utilities().getDecToBin(y); // We get the columns -> change number from decimal to binary. Max number of columns: 5000

// We see which columns will be queried
for(r=0;r<binaryNumber.size();r++) //
{               
    if(binaryNumber.test(r) & mask.test(r))  // if both of them are bit "1"
    {
        columnsToBeQueried.push_back(r);
    }
    mask=mask<<1;   
}

do
{
    for(int z=0;z<columnsToBeQueried.size();z++)
    {
        int i;
        i=columnsToBeQueried.at(z);

        vector<int> colTab;
        colTab.push_back(1); // Don't really worry about this

        //idTable = colTab.at(i);   // We identify in which table (with the id) is column_i
        // In this simple example we only have one table, so don't worry about this

        const Table& selectedTable = database.getPointer().at(0); // It simmulates a vector with pointers to different tables that compose the database, but our example database only have one table, so don't worry            ElementSet selectedElementSet;

        ElementSet selectedElementSet;

        selectedElementSet=selectedTable.getRowsCols().at(n);
        shownVector.push_back(selectedElementSet.getElements().at(i)); // We save in the vector shownVector the element "i" of the row "n"

    }   
    n=n+1;
    t++;            

}while(t<numTuples);

t2=clock(); // End of the query time

float diff ((float)t2-(float)t1);
float microseconds = diff / CLOCKS_PER_SEC*1000000;

cout<<"The query time is: "<<microseconds<<" microseconds."<<endl;

课程定义

这里我附上了一些类定义,以便您可以编译代码,并更好地了解它的工作原理:

class ElementSet
{
private:
    int id;
    vector<string> elements; 

public:
    ElementSet(); 
    ElementSet(int, vector<string>); 

    const int& getId();
    void setId(int);

    const vector<string>& getElements();
    void setElements(vector<string>);

};

class Table
{
private:
    vector<ElementSet> RowsCols; 

public:
    Table(); 
    Table(vector<ElementSet>); 

    const vector<ElementSet>& getRowsCols();
    void setRowsCols(vector<ElementSet>);
};


class DataBase
{
     private:
        int id;
        vector<Table> pointer; 

     public:
        DataBase(); 
        DataBase(int, vector<Table>); 

    const int& getId();
    void setId(int);

    const vector<Table>& getPointer();
    void setPointer(vector<Table>);

    };

class Utilities
{
        public:
        Utilities();
        static bitset<500> getDecToBin(unsigned long long int);
};

所以我得到的问题是我的查询时间根据表大小而有很大差异(它没有任何关于100行和100列的表,以及10000行和1000列的表)。这使我的代码表现对于大表来说非常低,真正重要的是......你知道我怎么能优化我的代码????

非常感谢你的帮助! :)

5 个答案:

答案 0 :(得分:3)

每当遇到性能问题时,首先要做的是分析代码。 Here是一个可以在Windows上执行此操作的免费工具列表,here用于Linux。描述您的代码,找出瓶颈,然后回来询问具体问题。

另外,就像我在评论中所说,你不能只使用SQLite吗?它支持内存数据库,使其适合测试,并且重量轻,速度快。

答案 1 :(得分:1)

一个明显的问题是你的get函数按值返回向量。你每次都需要一份新的副本吗?可能不是。

如果您尝试返回const引用,则可以避免大量复制:

const vector<Table>& getPointer();

和嵌套get的类似。

答案 2 :(得分:0)

完成了这项工作,但您可以分析算法的复杂性。 reference表示访问项目的时间是恒定的,但是当您创建循环时,程序的复杂性会增加:

for (i=0;i<1000; ++i) // O(i)
  for (j=0;j<1000; ++j) // O(j)
     myAction(); // Constant in your case

程序的复杂程度是O(i * j),那么我和j有多大? 如果myAction在时间上不恒定怎么办?

答案 3 :(得分:0)

无需再次重新发明轮子,而是使用FirebirdSQL嵌入式数据库。结合IBPP C ++接口为您未来的任何需求奠定了坚实的基础。

http://www.firebirdsql.org/

http://www.ibpp.org/

答案 4 :(得分:0)

虽然我建议您使用分析器来查找代码的哪些部分值得优化,但以下是我编写程序的方法:

将整个文本文件读入一个字符串(或者更好,将内存映射到文件中。)扫描字符串一次以查找所有字符串。和\ n(换行符)字符。此扫描的结果是字符串中的字节偏移数组。

当用户查询第N行的项目M时,使用以下代码检索它:

char* begin = text+offset[N*items+M]+1; 
char* end = text+offset[N*items+M+1];

如果在读取数据之前知道记录和字段的数量,则字节偏移数组可以是std :: vector。如果您不知道并且必须从数据中推断出它应该是std :: deque。这是为了最大限度地减少代价高昂的内存分配和释放,我认为这是此类程序的瓶颈。