c ++在非字母字符上拆分字符串

时间:2014-11-13 23:11:45

标签: c++ regex string

我正在逐行读取文件,我希望将其拆分为非字母字符,如果可能的话,同时删除所有非字母字符,这样我就不必这样做了。

我想使用isalpha,但无法弄清楚如何在str.find()或类似函数中使用它,因为那些通常将单个分隔符作为字符串。

    while(getline(fileToOpen,str))
    {
        unsigned int pos= 0;
        string token;
        //transform(str.begin(),str.end(),str.begin(),::tolower);
        while (pos = str.find_first_not_of("abcdefghijklmnopqrstuvwxyzQWERTYUIOPASDFGHJKLZXCVBNM"))
        {
            token = str.substr(0, pos);
            //transform(str.begin(),str.end(),str.begin(),::tolower);

            Node<t>* ptr=search(token,root);
            if (ptr!=NULL)
            {
                ptr->count++;
                cout<<token<<" already in tree.Count "<<ptr->count<<"\n";
            }
            else
            {
                insert(token,root);
                cout<<token<<" added to tree.\n";
            }
            ptr=NULL;
            str.erase(0, pos);
        }

    }

我的最新尝试不起作用......我能找到的所有例子都基于str.find("single delimiter")

这对我没有好处。

找到了使用isalpha

的方法
template<typename t>
void Tree<t>::readFromFile(string filename)
{
    string str;
    ifstream fileToOpen(filename.c_str());
    if (fileToOpen.is_open())
    {
        while(getline(fileToOpen,str))
        {
            unsigned int pos= 0;
            string token;
            //transform(str.begin(),str.end(),str.begin(),::tolower);
            while (pos = find_if(str.begin(),str.end(),aZCheck)!=str.end()!=string::npos)
            {
                token = str.substr(0, pos);
                transform(token.begin(),token.end(),token.begin(),::tolower);
                Node<t>* ptr=search(token,root);
                if (ptr!=NULL)
                {
                    ptr->count++;
                   // cout<<token<<" already in tree.Count "<<ptr->count<<"\n";
                }
                else
                {
                    insert(token,root);
                    cout<<token<<" added to tree.\n";
                }
                ptr=NULL;
                str.erase(0, pos);
            }

        }
        fileToOpen.close();

    }
    else
        cout<<"Unable to open file!\n";
}

template<typename t>
inline bool Tree<t>::aZCheck(char c)
{
    return !isalpha(c);

}

但是问题仍然存在,字符串被分成单个字符而不是单词,isalpha被认为是有效的空格?

2 个答案:

答案 0 :(得分:2)

#include <algorithm>
#include <cctype>
...

template<typename t>
void Tree<t>::readFromFile(std::string filename)
{
    std::string str;
    std::ifstream fileToOpen(filename.c_str());
    if (fileToOpen.is_open())
    {
        for (std::string::iterator pos, prev; std::getline(fileToOpen, str); )
        {                
            for (pos = std::find_if(str.begin(), str.end(), isalpha); pos != str.end();
                pos = std::find_if(prev, str.end(), isalpha))
            {
                prev = std::find_if_not(pos, str.end(), isalpha);
                std::string token(pos, prev);
                std::transform(token.begin(), token.end(), token.begin(), ::tolower);
                Node<t>* ptr = search(token, root);
                if (ptr != NULL)
                {
                    ptr->count++;
                   // cout<< token << " already in tree.Count "<<ptr->count<<"\n";
                }
                else
                {
                    insert(token, root);
                    cout << token << " added to tree.\n";
                }
            }
        }
        fileToOpen.close();

    }
    else
        cout<<"Unable to open file!\n";
}

Online demo

另外,既然你说你想节省时间,那么如果你的插入函数做了额外的事情,它会对你有所帮助。即,如果在树中找不到该值,则插入该值,并将该计数器设置为1.如果该值在树中,则只需增加计数器。这将使您免于进行2次迭代,因为您的树可能存在潜在的不平衡

答案 1 :(得分:1)

试试这个测试用例。两个问题。

1 - 在截断(或开始)后的字符串开始处找到分隔符时,Pos为0 这导致它突然爆发。请改用npos作为条件检查。

2 - 擦除时必须使位置超过分隔符,否则为
它一遍又一遍地找到同一个。

    int pos= 0;
    string token;
    string str = "Thisis(asdfasdfasdf)and!this)))";

    while ((pos=str.find_first_not_of("abcdefghijklmnopqrstuvwxyzQWERTYUIOPASDFGHJKLZXCVBNM"))!= string::npos )
    {
        if ( pos != 0 )
        {
            // Found a token
            token = str.substr(0, pos);
            cout << "Found: " << token << endl;
        }
        else
        {
            // Found another delimiter
            // Just move on to next one
        }

        str.erase(0, pos+1);  // Always remove pos+1 to get rid of delimiter
    }
    // Cover the last (or only) token
    if ( str.length() > 0 )
    {
        token = str;
        cout << "Found: " << token << endl;
    }

输出&gt;&gt;

Found: Thisis
Found: asdfasdfasdf
Found: and
Found: this
Press any key to continue . . .