Question

我有一个python函数，我希望将其转换为C ++以尝试获得一些额外的速度（因为它将用于解析＆gt; 100GB文件）。我对C ++缺乏经验，并且在我的基本翻译之后发现我的C ++函数运行得慢得惊恐。任何关于为什么这样做的指针，或者我可以做些什么来改进我的C ++代码都将非常感激。

脚本概述：该函数从另一个程序读取stdin，检查每一行是否有任何子串匹配，并将每一行打印到stdout

Python函数：

def find_tagPy(conditions):
    # conditions e.g. ['TTAT', 'TAT'] etc   
    for line in stdin:
        # Check conditionss against this line
        l = line.split("\t")

        if l[0][0] == "@":
            stdout.write(line)
            continue

        FLAG = int(l[1])

        if 1 & FLAG:  # Read has a pair
            for bases in conditions:
                if bases in l[9]:
                    ADD_MATE = 1
                    stdout.write(line)
                    break  # stop looking

C ++函数：

void find_tagCpp (vector<string> conditions) {
    cin.sync_with_stdio(false);
    cin.tie(NULL);

    string line;
    while (getline(cin, line)) {
        vector<string> l;
        boost::split(l, line, boost::is_any_of("\t"), boost::token_compress_on);

        if (l[0][0] == '@') {
            cout << line << "\n";
            continue;
        }

        int FLAG = stoi(l[1]);
        int pair_FLAG = 1;

        if (pair_FLAG & FLAG) {  // Read has a pair
            for (int i=0; i < conditions.size(); i++) {  // If bases in SEQ
                if (l[9].find(conditions[i]) != string::npos) {
                    cout << line << "\n";
                    break;  // Stop looking
                }
            }
        }
    }
}

stdin行的一个例子是：

FCC2CCMACXX：4：1105：10758：14389＃81 CHRM 1 32 10S90M = 16151 16062 CATCACGATGGATCACAGGTCTATCACCCTATTAACCACTCACGGGAGCTTTCCATGCATTTGGTATTTTCGTCTGGGGGGTGTGCACGCGATAGCATTG BBB ^ Wcbbbbccbbbcbccbba] WQG ^ bbcdcb _ ^_ C_ ^`ccdddeeeeeffggggiiiiihiiiiihiiihihiiiihghhiihgfgfgeeeeebbb NM：I：1为：I：85 XS：我：65 RG：Z：1_DB31

在我的机器上，python函数需要1.97秒，C ++函数需要11.05秒（文件大小约为25mb，但这包括使用上游和下游工具处理）

编辑：

我在boost :: split中发现了一个瓶颈，这有点令人惊讶：

的Python：

for i in range(100000):
    l = line.split("\t")

C ++：

for (int i=0; i < 100000; i++) {
    vector<string> l;
    boost::split(l, line, boost::is_any_of("\t"), boost::token_compress_on);
}

Python = 0.0325 s

C ++ = 1.245 s

但是我的文件只有156,980行，所以这不能解决整个问题。

Answer 1

拆分将碎片复制到新的字符串中。这很慢，你不需要它们。而是在行中搜索所需作品的开头（第10个），然后从那里调用find。

Answer 2

我意识到我的原始代码不适合测试，所以我想我会在这里重构它，并讨论我发现的内容。我按照建议使用-Ofast（最快，积极的优化，Apple LLVM 6.1）启用了编译器优化，为了比较，Python是2.7.10。

Python功能

import time

def fun(line):
    l = line.split(" ", 10)
    if 'TTAGGG' in l[9]:
        pass

line = "FCC2CCMACXX:4:1105:10758:14389# 81 chrM 1 32 10S90M = 16151 16062 CATCACGATGGATCACAGGTCTATCACCCTATTAACCACTCACGGGAGCTTTCCATGCATTTGGTATTTTCGTCTGGGGGGTGTGCACGCTTAGGGGATAGCATTG bbb^Wcbbbbccbbbcbccbba]WQG^bbcdcb_^_c_^`ccdddeeeeeffggggiiiiihiiiiihiiihihiiiihghhiihgfgfgeeeeebbb NM:i:1 AS:i:85 XS:i:65 RG:Z:1_DB31"

time0 = time.time()
for i in range(100000):
    fun(line)

print time.time() - time0

C ++功能

void fun(string* line, string* substring) {
    vector<string> l;
    boost::split(l, *line, boost::is_any_of(" "));
    if (l[9].find(*substring) != string::npos) {
        // Do nothing
    }
}

int main(int argc, const char * argv[]) {
    string line = "FCC2CCMACXX:4:1105:10758:14389# 81 chrM 1 32 10S90M = 16151 16062 CATCACGATGGATCACAGGTCTATCACCCTATTAACCACTCACGGGAGCTTTCCATGCATTTGGTATTTTCGTCTGGGGGGTGTGCACGCTTAGGGGATAGCATTG bbb^Wcbbbbccbbbcbccbba]WQG^bbcdcb_^_c_^`ccdddeeeeeffggggiiiiihiiiiihiiihihiiiihghhiihgfgfgeeeeebbb NM:i:1 AS:i:85 XS:i:65 RG:Z:1_DB31";
    string substring = "TTAGGG";
    boost::timer t;

    for (int i=0; i<100000; i++) {
        fun(&line, &substring);
    }

    cout << t.elapsed() << endl;
    return 0;
}

在我的机器上，我现在将c ++函数设置为205 ms，将python函数设置为66 ms。有趣的是，现在几乎整个运行时都被boost :: split函数占用了。

如果我摆脱了这个函数并使用string.find搜索整行（虽然不是我想要的）：

if ((*line).find(*substring) != string::npos) {
    // Do nothing
}

c ++运行时减少到大约<1 ms！所以看起来boost :: split只是一个问题。感谢您的建议。

Answer 3

尝试使用一些优化代码

C ++函数：

void find_tagCpp (vector<string> conditions) {
    cin.sync_with_stdio(false);
    cin.tie(NULL);

    string line;
    vector<string> l;
    while (getline(cin, line)) {
        l.clear();
        boost::split(l, line, boost::is_any_of("\t"), boost::token_compress_on);

        if (l[0][0] == '@') {
            cout << line << "\n";
            continue;
        }

        int FLAG = stoi(l[1]);
        int pair_FLAG = 1;

        if (pair_FLAG & FLAG) {  // Read has a pair
            for (int i=0; i < conditions.size(); i++) {  // If bases in SEQ
                if (l[9].find(conditions[i]) != string::npos) {
                    printf("%s\n", line.c_str());
                    break;  // Stop looking
                }
            }
        }
    }
}

Python解析stdin比C ++快得多

3 个答案: