我见过this question而且我的版本非常相似,但它有所不同,所以请不要将其标记为重复版。
我的问题是:如何从字符串中获取空字段?
我有一个像std::string s = "This.is..a.test";
这样的字符串,我希望得到字段<This> <is> <> <a> <test>
。
我也试过
typedef boost::char_separator<char> ChSep;
typedef boost::tokenizer<ChSep> TknChSep;
ChSep sep(".", ".", boost::keep_empty_tokens);
TknChSep tok(s, sep);
for (TknChSep::iterator beg = tok.begin(); beg != tok.end(); ++beg)
{
std::cout << "<" << *beg << "> ";
}
但我得到<This> <.> <is> <.> <> <.> <a> <test>
。
答案 0 :(得分:6)
Boost.Tokenizer&#39; char_separator
的第二个参数是kept_delims
参数。它用于指定将显示为标记的分隔符。原始代码指定"."
应保留为令牌。要解决此问题,请更改:
ChSep sep(".", ".", boost::keep_empty_tokens);
为:
ChSep sep(".", "", boost::keep_empty_tokens);
// ^-- no delimiters will show up as tokens.
这是一个完整的例子:
#include <iostream>
#include <string>
#include <boost/foreach.hpp>
#include <boost/tokenizer.hpp>
int main()
{
std::string str = "This.is..a.test";
typedef boost::tokenizer<boost::char_separator<char> > tokenizer;
boost::char_separator<char> sep(
".", // dropped delimiters
"", // kept delimiters
boost::keep_empty_tokens); // empty token policy
BOOST_FOREACH(std::string token, tokenizer(str, sep))
{
std::cout << "<" << token << "> ";
}
std::cout << std::endl;
}
产生所需的输出:
<This> <is> <> <a> <test>
答案 1 :(得分:1)
我想我跳过Boost::tokenizer
,只是使用标准正则表达式进行拆分:
#include <iterator>
#include <regex>
#include <string>
#include <iostream>
int main() {
std::string s = "This.is..a.test";
std::regex sep{ "\\." };
std::copy(std::sregex_token_iterator(s.begin(), s.end(), sep, -1),
std::sregex_token_iterator(),
std::ostream_iterator<std::string>(std::cout, "\n"));
}
结果:
This
is
a
test