是否有一个c ++库实现了一种流式的tokenizer?

时间:2013-06-06 19:18:43

标签: c++ tokenize

此界面后面的内容:

class StreamTokenizer
{
public:
    StreamTokenizer(const std::string delimiter);
    std::list<std::string> add_data(const std::string);
    std::string get_left_over();
};
StreamTokenizer d(" ");
std::list<std::string> tokens;
tokens.append(d.add_data("tok"));
tokens.append(d.add_data("1 t"));
tokens.append(d.add_data("ok2 tok3"));
tokens.push_back(d.get_left_over());
// tokens = {tok1, tok2, tok3}
// d = {}

它以块的形式接收数据,它应该返回它到目前为止找到的所有标记,它应该能够将剩余部分连接到下一个块,并且它不应该保存已经被标记化的数据。

请不要建议使用stringstream,除非你可以展示如何从中删除已经标记化的数据(我的流几乎是无限的)

1 个答案:

答案 0 :(得分:5)

是的,它被称为“标准库”。

您要求的内容似乎属于流可以轻松处理的范围。

std::stringstream d;

d << "tok";
d << "1 t";
d << "ok2 tok3";

std::vector<std::string> tokens((std::istream_iterator<std::string>(d)),
                                 std::istream_iterator<std::string>());

for (std::string s : tokens)
    std::cout << s << "\n";

结果:

tok1
tok2
tok3

我没有在这里展示“得到休息”的功能。我认为istream::read可能是显而易见的选择。

我想我应该添加:默认情况下,字符串将在流解释为空白的任何内容处被破坏,而不仅仅是空格字符。您可以通过编写自定义ctype构面并使用该构面填充流来更改它解释为空白区域的内容。例如,我在a previous answer中向-/展示了如何做到这一点。