Question

我有这个csv行

std::string s = R"(1997,Ford,E350,"ac, abs, moon","some "rusty" parts",3000.00)";

我可以使用boost::tokenizer解析它：

typedef boost::tokenizer< boost::escaped_list_separator<char> , std::string::const_iterator, std::string> Tokenizer;
boost::escaped_list_separator<char> seps('\\', ',', '\"');
Tokenizer tok(s, seps);
for (auto i : tok)
{
    std::cout << i << std::endl;
}

它是正确的，除了令牌“生锈”应该有双引号被剥离。

这是我尝试使用boost :: spirit

boost::spirit::classic::rule<> list_csv_item = !(boost::spirit::classic::confix_p('\"', *boost::spirit::classic::c_escape_ch_p, '\"') | boost::spirit::classic::longest_d[boost::spirit::classic::real_p | boost::spirit::classic::int_p]);
std::vector<std::string> vec_item;
std::vector<std::string>  vec_list;
boost::spirit::classic::rule<> list_csv = boost::spirit::classic::list_p(list_csv_item[boost::spirit::classic::push_back_a(vec_item)],',')[boost::spirit::classic::push_back_a(vec_list)];
boost::spirit::classic::parse_info<> result = parse(s.c_str(), list_csv);
if (result.hit)
{
  for (auto i : vec_item)
  {
    cout << i << endl;
   }
}

问题：

不起作用，仅打印第一个令牌
为什么要提升::精神::经典？找不到使用Spirit V2的例子
设置很残酷..但我可以忍受这个

**我真的想使用boost::spirit，因为它往往很快

预期产出：

1997
Ford
E350
ac, abs, moon
some "rusty" parts

3000.00

Answer 1

有关解析（可选）引用分隔字段的背景信息，包括不同的引号字符（'，"），请参阅此处：


Parse quoted strings with boost::spirit


对于非常非常非常完整的示例，完整支持部分引用的值和
splitInto(input, output, ' ');
采用'任意'输出容器和分隔符表达式的方法，请参见此处：


How to make my split work only on one real line and be capable to skip quoted parts of string?

解决您的确切问题，假设 引用或未加引号的字段（字段值中没有部分引号<）>，使用Spirit V2：

让我们采用可能有效的最简单的“抽象数据类型”：

using Column = std::string; using Columns = std::vector<Column>; using CsvLine = Columns; using CsvFile = std::vector<CsvLine>;

重复的双引号转义一个双引号语义（正如我在评论中指出的那样），你应该可以使用类似的东西：

static const char colsep = ','; start = -line % eol; line = column % colsep; column = quoted | *~char_(colsep); quoted = '"' >> *("\"\"" | ~char_('"')) >> '"';

以下完整的测试程序打印

[1997][Ford][E350][ac, abs, moon][rusty][3001.00]

（注意BOOST_SPIRIT_DEBUG定义以便于调试）。见 Live on Coliru

完整演示

//#define BOOST_SPIRIT_DEBUG #include <boost/spirit/include/qi.hpp> namespace qi = boost::spirit::qi; using Column = std::string; using Columns = std::vector<Column>; using CsvLine = Columns; using CsvFile = std::vector<CsvLine>; template <typename It> struct CsvGrammar : qi::grammar<It, CsvFile(), qi::blank_type> { CsvGrammar() : CsvGrammar::base_type(start) { using namespace qi; static const char colsep = ','; start = -line % eol; line = column % colsep; column = quoted | *~char_(colsep); quoted = '"' >> *("\"\"" | ~char_('"')) >> '"'; BOOST_SPIRIT_DEBUG_NODES((start)(line)(column)(quoted)); } private: qi::rule<It, CsvFile(), qi::blank_type> start; qi::rule<It, CsvLine(), qi::blank_type> line; qi::rule<It, Column(), qi::blank_type> column; qi::rule<It, std::string()> quoted; }; int main() { const std::string s = R"(1997,Ford,E350,"ac, abs, moon","""rusty""",3001.00)"; auto f(begin(s)), l(end(s)); CsvGrammar<std::string::const_iterator> p; CsvFile parsed; bool ok = qi::phrase_parse(f,l,p,qi::blank,parsed); if (ok) { for(auto& line : parsed) { for(auto& col : line) std::cout << '[' << col << ']'; std::cout << std::endl; } } else { std::cout << "Parse failed\n"; } if (f!=l) std::cout << "Remaining unparsed: '" << std::string(f,l) << "'\n"; }

Answer 2

Sehe的帖子看起来比我的更干净，但是我把它放在一起有点，所以这里反正：

#include <boost/tokenizer.hpp>
#include <boost/spirit/include/qi.hpp>

namespace qi = boost::spirit::qi;

int main() {
    const std::string s = R"(1997,Ford,E350,"ac, abs, moon",""rusty"",3000.00)";

    // Tokenizer
    typedef boost::tokenizer< boost::escaped_list_separator<char> , std::string::const_iterator, std::string> Tokenizer;
    boost::escaped_list_separator<char> seps('\\', ',', '\"');
    Tokenizer tok(s, seps);
    for (auto i : tok)
        std::cout << i << "\n";
    std::cout << "\n";

    // Boost Spirit Qi
    qi::rule<std::string::const_iterator, std::string()> quoted_string = '"' >> *(qi::char_ - '"') >> '"';
    qi::rule<std::string::const_iterator, std::string()> valid_characters = qi::char_ - '"' - ',';
    qi::rule<std::string::const_iterator, std::string()> item = *(quoted_string | valid_characters );
    qi::rule<std::string::const_iterator, std::vector<std::string>()> csv_parser = item % ',';

    std::string::const_iterator s_begin = s.begin();
    std::string::const_iterator s_end = s.end();
    std::vector<std::string> result;

    bool r = boost::spirit::qi::parse(s_begin, s_end, csv_parser, result);
    assert(r == true);
    assert(s_begin == s_end);

    for (auto i : result)
        std::cout << i << std::endl;
    std::cout << "\n";
}

这输出：

1997
Ford
E350
ac, abs, moon
rusty
3000.00

1997
Ford
E350
ac, abs, moon
rusty
3000.00

值得注意的事情：这不会实现完整的CSV解析器。您还需要查看转义字符或实现所需的任何其他内容。

：如果你正在查看文档，那么你知道，在Qi中，'a'相当于boost::spirit::qi::lit('a')而"abc"是等价的到boost::spirit::qi::lit("abc")。

关于双引号：因此，正如Sehe在上面的评论中指出的那样，输入文本中""周围的规则意味着什么并不直接。如果您希望""不在引用字符串中的所有实例都转换为"，那么以下内容就可以了。

qi::rule<std::string::const_iterator, std::string()> double_quote_char = "\"\"" >> qi::attr('"');
qi::rule<std::string::const_iterator, std::string()> item = *(double_quote_char | quoted_string | valid_characters );

如何使用boost :: spirit解析csv

2 个答案:

完整演示