删除字符串算法中的重复项

时间:2014-06-30 17:54:57

标签: c++ string algorithm loops erase

我的作业是随机删除重复项。我的想法是使用2个循环来解决问题。

第一个将扫描字符串中的每个字符。 第二个将检查该字符是否重复。如果是,请删除该字符。

string content = "Blah blah..."

    for (int i = 0; i < content.size(); ++i) {
            char check = content.at(i);
            for (int j = i + 1; j < content.size() - 1; ++j) {
                if (check == content.at(j)) {
                    content.erase(content.begin()+j);

                }
            }
        }

问题是它不起作用。它总是删除错误的字符。似乎指数问题,但我不明白为什么。

临时解决方案是将content.erase(content.begin()+j);更改为content.erase( remove(content.begin() + i+1, content.end(), check),content.end());

但我认为触发“按值删除”扫描并不是一个好方法。我想用2个或更少的循环来做。

任何想法将不胜感激:)

5 个答案:

答案 0 :(得分:3)

如果使用STL是一种可能的选择,您可以使用std::unordered_set来保持目前为止看到的字符以及使用std::remove_if删除删除习惯用语,如下例所示:

#include <iostream>
#include <string>
#include <unordered_set>
#include <algorithm>

int main() {
  std::string str("Hello World!");
  std::unordered_set<char> log;
  std::cout << "Before: " << str << std::endl;
  str.erase(std::remove_if(str.begin(), str.end(), [&] (char const c) { return !(log.insert(c).second); }), str.end());
  std::cout << "After:  " << str << std::endl;
}

LIVE DEMO

答案 1 :(得分:3)

你的循环可能看起来如下

#include <iostream>
#include <string>

int main() 
{
    std::string s = "Blah blah...";

    std::cout << '\"' << s << '\"' << std::endl;

    for ( std::string::size_type i = 0; i < s.size(); i++ )
    {
        std::string::size_type j = i + 1;
        while ( j < s.size() )
        {
            if ( s[i] == s[j] )
            {
                s.erase( j, 1 );
            }
            else
            {
                ++j;
            }
        }
    }

    std::cout << '\"' << s << '\"' << std::endl;

    return 0;
}

输出

"Blah blah..."
"Blah b."

还有许多使用标准算法的方法。例如

#include <iostream>
#include <string>
#include <algorithm>
#include <iterator>

int main() 
{
    std::string s = "Blah blah...";

    std::cout << '\"' << s << '\"' << std::endl;

    auto last = s.end();

    for ( auto first = s.begin(); first != last; ++first )
    {
        last = std::remove( std::next( first ), last, *first );
    }

    s.erase( last, s.end() );

    std::cout << '\"' << s << '\"' << std::endl;

    return 0;
}

输出与上一代码示例相同

"Blah blah..."
"Blah b."

答案 2 :(得分:3)

我建议采用双通法。第一遍标识重复字符的位置;第二遍删除它们。

我建议使用std::setstd::vector<unsigned int>。向量包含字符串中的字母。向量包含重复字母的位置。

第一遍检测到集合中是否存在字母。如果字母存在,则将位置附加到矢量。否则将字母插入集合中。

对于第二遍,按降序对矢量进行排序 擦除矢量中位置处的字符,然后从矢量中移除位置。

通过从字符串末尾向前擦除字符,当从字符串中删除字符时,剩余重复项的位置不会改变。

答案 3 :(得分:1)

我不确定这是导致您出现问题的原因,但我在您的代码中看到的另一个问题是您的第二个for循环。您的j < content.size() - 1声明应该是

j < content.size()

这样做的原因一开始看起来有点棘手,但在这种情况下,你不只是将矢量的大小作为大小,而是充当你的字符串的结束索引。你正在缩短最后一个索引,这意味着你不会击中你的字符串中的最后一个字符。我不知道这是否有助于解决您最初的问题,但谁知道呢?

答案 4 :(得分:1)

注意:您的实际问题是维护下一个相关元素的正确索引:

  • 如果您不删除某个字符,则下一个元素位于下一个位置。
  • 如果删除一个字符,下一个元素将移动到当前位置的位置(该位置保持不变)。

另外:有更有效的解决方案(例如:使用一套)