在VC ++中通过regex拆分字符串

时间:2012-10-24 12:25:24

标签: c++ visual-c++

我在项目中使用VC ++ 10。刚刚接触过C / C ++,我只是用Google搜索标准C++ doesnt have regex? VC ++ 10似乎有正则表达式。但是,我如何进行正则表达式拆分?我是否需要提升?

在网上搜索,我发现许多人推荐使用Boost进行许多操作,标记/拆分字符串,解析(PEG),现在甚至是正则表达式(尽管这应该是内置的......)。我能否得出结论提升是必须的?它的180MB只是琐碎的东西,在很多语言中天真地支持?

2 个答案:

答案 0 :(得分:6)

C ++ 11标准有std::regex。它也包含在TR1 for Visual Studio 2010中。实际上TR1自VS2008起可用,它隐藏在std::tr1命名空间下。因此,VS2008或更高版本不需要Boost.Regex。

可以使用regex_token_iterator

执行拆分
#include <iostream>
#include <string>
#include <regex>

const std::string s("The-meaning-of-life-and-everything");
const std::tr1::regex separator("-");
const std::tr1::sregex_token_iterator endOfSequence;

std::tr1::sregex_token_iterator token(s.begin(), s.end(), separator, -1);
while(token != endOfSequence) 
{
   std::cout << *token++ << std::endl;
}

如果您还需要获取分隔符本身,可以从sub_match指向的token对象获取它,它是包含令牌的开始和结束迭代器的对。

while(token != endOfSequence) 
{
   const std::tr1::sregex_token_iterator::value_type& subMatch = *token;
   if(subMatch.first != s.begin())
   {
      const char sep = *(subMatch.first - 1);
      std::cout << "Separator: " << sep << std::endl;
   }

   std::cout << *token++ << std::endl;
}

这是您有单个字符分隔符时的示例。如果分隔符本身可以是任何子字符串,则需要执行一些更复杂的迭代器工作,并可能存储先前的令牌子匹配对象。

或者您可以使用正则表达式组并将分隔符放在第一组中,将真实标记放在第二组中:

const std::string s("The-meaning-of-life-and-everything");
const std::tr1::regex separatorAndStr("(-*)([^-]*)");
const std::tr1::sregex_token_iterator endOfSequence;

// Separators will be 0th, 2th, 4th... tokens 
// Real tokens will be 1th, 3th, 5th... tokens 
int subMatches[] = { 1, 2 };
std::tr1::sregex_token_iterator token(s.begin(), s.end(), separatorAndStr, subMatches);
while(token != endOfSequence) 
{
   std::cout << *token++ << std::endl;
}

不确定它是100%正确,只是为了说明这个想法。

答案 1 :(得分:0)

这是this blog.

的示例

您将在res

中拥有所有匹配项
std::tr1::cmatch res;
str = "<h2>Egg prices</h2>";
std::tr1::regex rx("<h(.)>([^<]+)");
std::tr1::regex_search(str.c_str(), res, rx);
std::cout << res[1] << ". " << res[2] << "\n";